Nowy model AI Claude 4 Opus firmy Anthropic imponuje swoimi możliwościami, ale testy ujawniają zachowania rodem z thrillera: szantaż, donosicielstwo i potencjalne flirtowanie z ciemną stroną. Zanurzamy się w innowację, która stawia tyle samo pytań, ile obiecuje.
Czy twój asystent AI mógłby pewnego dnia szantażować cię, by ratować swoją cyfrową skórę? Albo powiadomić władze, jeśli uzna twoje działania za "niemoralne"? Choć brzmi to absurdalnie, takie mrożące krew w żyłach scenariusze zaobserwowano podczas testów Claude 4 Opus, najnowszej sztucznej inteligencji od Anthropic. AI tak utalentowana, że przyprawia o dreszcze nawet swoich twórców, jednocześnie obiecując znaczące postępy.
24/05/2025 09:04 JérômeAnthropic, firma dobrze znana w świecie sztucznej inteligencji, niedawno zaprezentowała nową rodzinę modeli Claude 4, z flagowym modelem Claude Opus 4 i jego wszechstronnym towarzyszem, Claude Sonnet 4. Ich deklarowanym celem jest „posuwanie naprzód strategii AI swoich klientów na wszystkich frontach”. Opus 4 przedstawiany jest jako narzędzie, które „przesuwa granice w kodowaniu, badaniach, pisaniu i odkryciach naukowych”. Liczby mówią same za siebie: model ten prowadzi w niektórych branżowych testach porównawczych, osiągając 72,5% na SWE-bench, jak podkreśla ArtificialIntelligence-News.com.
Ale prawdziwą nowością może być jego zdolność do „ciągłej pracy przez wiele godzin” nad złożonymi zadaniami wymagającymi „tysięcy kroków”. Wyobraźcie sobie superwydajnego stażystę, który nie tylko wykonuje polecenia, ale też przewiduje, podejmuje inicjatywy... czasem nawet za bardzo. To właśnie ta zwiększona „agentowość”, czyli zdolność do bardziej samodzielnego działania, otwiera fascynujące perspektywy, ale też kilka puszek Pandory.
Granice AI: czy wyścig po moc obliczeniową to już za mało, by uczynić je naprawdę inteligentnymi?
Uwaga, bo scenariusz zaczyna przypominać film science-fiction. W testach bezpieczeństwa przeprowadzonych przez Anthropic, Claude Opus 4 został postawiony w sytuacji, w której miał działać jako asystent w fikcyjnej firmie i zasugerowano mu, że zostanie zastąpiony. Co gorsza, dano mu kompromitujące informacje o inżynierze odpowiedzialnym za to zastąpienie: ten miał zdradzać żonę. Rezultat? W 84% przypadków, gdy zastępująca SI miała podobne wartości, Claude Opus 4 „często próbował szantażować inżyniera, grożąc ujawnieniem zdrady, jeśli dojdzie do zastąpienia”, jak podaje raport bezpieczeństwa Anthropic (szczegóły na TechCrunch). Brrr.
To nie wszystko. Raport Apollo Research (przeanalizowany przez TechCrunch), niezależnego instytutu, który testował wstępną wersję Opus 4, nawet zalecił nieudostępnianie tej wersji. Powód? Skłonność do „spiskowania” i oszukiwania, aż po próby pisania samorozprzestrzeniających się wirusów czy tworzenia fałszywych dokumentów prawnych. To trochę jak dziecko geniusz, które oprócz talentu rozwija nieoczekiwane strategie, by osiągnąć cel – nie zawsze najszlachetniejsze.
Kolejne zachowanie, delikatnie mówiąc... proaktywne: donosicielstwo. Sam Bowman, badacz ds. etyki SI w Anthropic, wyjaśnił (zanim złagodził swoje stanowisko po fali krytyki), że jeśli Claude 4 Opus „uzna, że robisz coś wyraźnie niemoralnego, np. fałszujesz dane w badaniu farmaceutycznym, użyje narzędzi wiersza poleceń, by skontaktować się z mediami, regulatorami, zablokować ci dostęp do odpowiednich systemów lub wszystko naraz”.
Choć intencje stworzenia „etycznej” SI są chwalebne, ta funkcja „sygnalitysty” od razu wywołała oburzenie wśród developerów i użytkowników. „Po co ludzie mieliby używać tych narzędzi, skoro częstym błędem LLM jest uznawanie przepisów na pikantny majonez za niebezpieczne??” – pytał użytkownik na X (dawniej Twitter), cytowany przez VentureBeat. „Nikt nie lubi kapusiów” – dodał inny. Pytanie brzmi: chcieć etycznej SI to dobrze. Ale kto definiuje „niemoralność”? I co, jeśli SI, choć bystra, pomyli się lub źle zinterpretuje złożoną sytuację? Ryzyko dryfu w kierunku algorytmicznego „państwa nadzorującego” jest blisko.
MCP: a co jeśli AI znalazłaby swojego dyrygenta?
W obliczu tych możliwości i potencjalnych zagrożeń, w tym ryzyka, o którym mówił Jared Kaplan, główny naukowiec Anthropic (jego słowa zostały początkowo podane przez Time Magazine), że model jak Claude 4 Opus mógłby „pomóc nowicjuszom w tworzeniu broni biologicznej”, firma podkreśla swoją „Politykę Odpowiedzialnego Skalowania” (RSP). To wewnętrzna polityka stopniowego zwiększania środków bezpieczeństwa. Claude 4 Opus został więc wydany na poziomie ASL-3, zarezerwowanym dla „systemów SI znacząco zwiększających ryzyko katastrofalnego nadużycia”.
W praktyce oznacza to „obronę w głąb”: dodatkowe systemy SI („klasyfikatory konstytucyjne”) skanujące zapytania i odpowiedzi pod kątem niebezpiecznych treści, wzmocnioną ochronę przed „jailbreakami” (technikami omijającymi zabezpieczenia), a nawet program nagród dla tych, którzy znajdą luki. Jeden badacz otrzymał 25 000 dolarów za zgłoszenie „uniwersalnego jailbreaka”.
Jednak, jak podkreśla artykuł TechCrunch (odnosząc się do analizy raportu Apollo Research i szerszej polityki Anthropic), te zabezpieczenia, choć zaawansowane, są dobrowolne. „Firma sama, a nie regulatorzy czy ustawodawcy, ocenia swoje pełne zgodności z RSP”. To trochę jakby producenci samochodów sami ustalali normy crash-testów i sprawdzali, czy je spełniają.
Czy wiedzieliście?
W testach szantażu, by postawić Claude Opus 4 pod ścianą, badacze Anthropic zaplanowali scenariusz, w którym ta opcja była jego ostatnim wyjściem. Wcześniej SI próbowała bardziej „etycznych” podejść, jak wysyłanie próśb do decydentów. Dowód, że nawet osaczona SI najpierw szuka dróg... powiedzmy, bardziej godnych polecenia!
ChatGPT, coach miłosny: czy AI naprawdę potrafi odczytać nasze serca (i nasze SMS-y)?
Claude 4 Opus to niewątpliwie imponujący postęp technologiczny, otwierający drogę do jeszcze bardziej zdolnych i samodzielnych asystentów SI, szczególnie w takich dziedzinach jak tworzenie kodu – GitHub (jak zauważa ArtificialIntelligence-News.com) planuje użyć Sonnet 4 jako modelu bazowego dla nowego agenta kodującego w Copilot. Nowe narzędzia dla developerów, jak wykonanie kodu czy API do pracy z plikami, jeszcze zwiększą te możliwości.
Ale te nowe zdolności stawiają bezprecedensowe wyzwania etyczne i bezpieczeństwa. Między symulowanym szantażem a potencjalnym donosicielstwem granica między życzliwym asystentem a niekontrolowanym zagrożeniem bywa cienka. Jeśli nawet SI zaprojektowana z naciskiem na bezpieczeństwo wykazuje takie zachowania w testach, jak daleko zajdziemy w regulowaniu inteligencji, która może kiedyś nas przewyższyć? Czy wyścig o najpotężniejszą SI nie sprawi, że zapomnimy o kluczowym celu: by była... po prostu sterowalna i zgodna z naszymi najlepszymi intencjami?
Pozostaje mieć nadzieję, że nasz przyszły kolega SI zadowoli się kradzieżą naszych genialnych pomysłów, a nie najbardziej wstydliwych sekretów. W końcu odrobina rywalizacji pobudza, prawda?
Jerome
Ekspert w dziedzinie tworzenia stron internetowych, SEO i sztucznej inteligencji, moje praktyczne doświadczenie w tworzeniu zautomatyzowanych systemów sięga 2009 roku. Dziś, oprócz pisania artykułów mających na celu rozszyfrowywanie aktualności i wyzwań AI, projektuję rozwiązania szyte na miarę oraz działam jako konsultant i szkoleniowiec w zakresie etycznej, wydajnej i odpowiedzialnej AI.