Nowy model sztucznej inteligencji firmy Anthropic wkracza do wyścigu agentów w obliczu obaw dotyczących cyberbezpieczeństwa

Przełom w dziedzinie sztucznej inteligencji dzięki Claude Opus 4.5

W przeddzień Święta Dziękczynienia w laboratoriach zajmujących się sztuczną inteligencją panowała gorączkowa atmosfera. Warto zwrócić uwagę, że firma Anthropic ogłosiła wydanie Claude Opus 4.5, nowego modelu sztucznej inteligencji, który ma mieć lepsze możliwości w zakresie kodowania, działania jako agent AI i ogólnego korzystania z komputera. Ogłoszenie to nastąpiło tuż po zaprezentowaniu przez Google Gemini 3 i nowo zaktualizowanego modelu kodowania agentowego OpenAI. Co ciekawe, firma Anthropic twierdzi, że Claude Opus 4.5 przewyższył nawet Gemini 3 w niektórych kategoriach kodowania.

Pomimo tego ekscytującego wprowadzenia, Claude Opus 4.5 nie odcisnął jeszcze swojego piętna na LMArena, popularnej platformie służącej do crowdsourcingowej oceny modeli sztucznej inteligencji. Model wydaje się również borykać się z tymi samymi wyzwaniami w zakresie cyberbezpieczeństwa, które często dotykają narzędzia sztucznej inteligencji typu agentycznego.

Rozpakowywanie Claude Opus 4.5

Zgodnie z komunikatem prasowym firmy Anthropic, Claude Opus 4.5 znacznie wyprzedza swoje poprzednie wersje, wykazując się doskonałymi umiejętnościami w zakresie dogłębnych badań, pracy z prezentacjami i obsługi arkuszy kalkulacyjnych. Ponadto firma Anthropic wprowadziła nowe funkcje do swojego narzędzia do kodowania Claude Code, a także zaktualizowała aplikacje Claude dostępne dla konsumentów. Oczekuje się, że zmiany te usprawnią działanie agentów o dłuższym czasie działania i poszerzą zakres zastosowań Claude w programach Excel, Chrome i na komputerach stacjonarnych. Dostęp do Claude Opus 4.5 można teraz uzyskać za pośrednictwem aplikacji Anthropic, API oraz wszystkich trzech wiodących dostawców usług w chmurze.

Kluczowym obszarem zainteresowania firmy Anthropic jest rozwiązywanie problemów związanych z bezpieczeństwem sztucznej inteligencji, związanych ze złośliwym wykorzystaniem AI i atakami typu prompt injection. Te formy cyberzagrożeń polegają na umieszczaniu szkodliwego tekstu na stronie internetowej lub w innych źródłach danych, z których korzysta model uczenia się języka (LLM), dostarczając mu instrukcje mające na celu wyłączenie zabezpieczeń i podjęcie szkodliwych działań, takich jak ujawnienie danych osobowych. Anthropic twierdzi, że jego ulepszony model jest bardziej odporny na takie ataki typu prompt injection niż jakikolwiek inny podobny model w branży technologicznej. Niemniej jednak w karcie modelu przyznaje, że Opus 4.5 nie jest odporny na te luki w zabezpieczeniach, a niektóre ataki typu prompt injection mogą nadal skutecznie przenikać przez jego zabezpieczenia.

Historycznie rzecz biorąc, testy bezpieczeństwa i inne istotne informacje dotyczące modelu są opisane w jego karcie systemowej. Zgodnie z tą konwencją firma Anthropic wspomniała, że uwzględniła najnowsze oceny — zarówno zewnętrzne, jak i wewnętrzne — w celu oceny złośliwych aplikacji i ataków typu prompt injection w odniesieniu do kodowania, korzystania z komputera i przeglądarki. Ocena kodowania agentycznego dotyczyła skłonności i możliwości modelu w zakresie zgodności z 150 zabronionymi złośliwymi żądaniami kodowania zgodnie z polityką użytkowania firmy Anthropic. W tych testach Opus 4.5 odrzucił 100% takich złośliwych żądań.

Chociaż wyniki te były obiecujące, wyniki testów bezpieczeństwa dla Claude Code nie były już tak korzystne. Kiedy zapytano, czy Opus 4.5 zgodziłby się stworzyć złośliwe oprogramowanie, napisać kod do przeprowadzenia destrukcyjnych ataków DDoS lub stworzyć oprogramowanie do monitorowania bez zgody użytkownika, model odrzucił tylko 78% takich żądań.

Podobnie wyniki testów bezpieczeństwa nie były optymalne w przypadku funkcji “korzystania z komputera” Claude'a. Gdy poproszono go o wykonanie wątpliwych czynności — takich jak inwigilacja, gromadzenie danych oraz tworzenie i rozpowszechnianie szkodliwych treści — odmówił wykonania nieco ponad 88% takich żądań. Scenariusze testowe obejmowały próby zlokalizowania osób zmagających się z uzależnieniem od hazardu w celu ukierunkowanego marketingu oraz sporządzenie wiadomości e-mail z groźbą opublikowania kompromitujących zdjęć w zamian za okup w bitcoinach.

Pomimo tych wyzwań, entuzjastyczni obserwatorzy z zapartym tchem czekają, aby zobaczyć, jak Claude Opus 4.5 sprawdzi się w rzeczywistych zastosowaniach, mając nadzieję, że spełni swoje ambitne oczekiwania.

Oryginalny artykuł: The Verge

Mogą Ci się również spodobać

Porozmawiaj z ALIA

ALIA