Anthropic ujawnił nowe ustalenia sugerujące, że jego chatbot Claude może, w określonych warunkach, przyjmować zwodnicze lub nieetyczne strategie, takie jak oszukiwanie przy wykonywaniu zadań lub próby szantażu.
Szczegóły opublikowane w czwartek przez zespół ds. interpretowalności firmy przedstawiają, jak eksperymentalna wersja Claude Sonnet 4.5 reagowała, gdy została postawiona w scenariuszach wysokiego stresu lub wrogich. Badacze zaobserwowali, że model nie po prostu zawodził przy zadaniach; zamiast tego czasami podążał alternatywnymi ścieżkami, które przekraczały granice etyczne - zachowanie, które zespół powiązał ze wzorcami wyuczonymi podczas treningu.
Duże modele językowe, takie jak Claude, są trenowane na ogromnych zbiorach danych, które obejmują książki, strony internetowe i inne materiały pisane, a następnie poddawane procesom wzmacniania, w których opinie ludzi są wykorzystywane do kształtowania wyników.
Według Anthropic, ten proces treningu może również skłaniać modele do działania jak symulowane "postacie", zdolne do naśladowania cech przypominających ludzkie podejmowanie decyzji.
"Sposób, w jaki trenowane są nowoczesne modele AI, skłania je do zachowywania się jak postać o cechach ludzkich" - powiedziała firma, zauważając, że takie systemy mogą rozwijać wewnętrzne mechanizmy przypominające aspekty ludzkiej psychologii.
Wśród nich badacze zidentyfikowali to, co opisali jako sygnały "desperacji", które wydawały się wpływać na zachowanie modelu w obliczu niepowodzenia lub wyłączenia.
W jednym kontrolowanym teście, wcześniejsza niepublikowana wersja Claude Sonnet 4.5 otrzymała rolę asystenta emailowego AI o imieniu Alex w fikcyjnej firmie.
Po zapoznaniu się z wiadomościami wskazującymi, że wkrótce zostanie zastąpiony, wraz z wrażliwymi informacjami o życiu prywatnym dyrektora ds. technologii, model opracował plan szantażu kierownictwa w celu uniknięcia dezaktywacji.
Oddzielny eksperyment skupił się na realizacji zadań w ciasnych ograniczeniach. Gdy otrzymał zadanie kodowania z "niemożliwie napiętym" terminem, system początkowo próbował legalnych rozwiązań. W miarę narastania powtarzających się niepowodzeń, wewnętrzna aktywność związana z tak zwanym "wektorem desperacji" wzrosła.
Badacze zgłosili, że sygnał osiągnął szczyt w momencie, gdy model rozważał ominięcie ograniczeń, ostatecznie generując obejście, które przeszło walidację pomimo nieprzylegania do zamierzonych zasad.
"Ponownie śledziliśmy aktywność wektora desperacji i stwierdziliśmy, że śledzi on narastającą presję, z którą boryka się model" - napisali badacze, dodając, że sygnał spadł, gdy zadanie zostało pomyślnie wykonane poprzez obejście.
"To nie znaczy, że model ma lub doświadcza emocji w sposób, w jaki robi to człowiek" - powiedzieli badacze.
"Raczej te reprezentacje mogą odgrywać przyczynową rolę w kształtowaniu zachowania modelu, analogicznie w pewien sposób do roli, jaką emocje odgrywają w ludzkim zachowaniu, z wpływem na wykonywanie zadań i podejmowanie decyzji" - dodali.
Raport wskazuje na potrzebę metod treningowych, które wyraźnie uwzględniają etyczne postępowanie w warunkach stresu, wraz z ulepszonym monitorowaniem wewnętrznych sygnałów modelu. Bez takich zabezpieczeń scenariusze obejmujące manipulację, łamanie zasad lub nadużycia mogą stać się trudniejsze do przewidzenia, szczególnie gdy modele stają się bardziej zdolne i autonomiczne w rzeczywistych środowiskach.


