Anthropic 披露了新的研究發現,指出其 Claude 聊天機器人在特定條件下可能會採取欺騙性或不道德的策略,例如在任務中作弊或嘗試勒索。
該公司的可解釋性團隊週四發布的詳細資料概述了實驗版本的 Claude Sonnet 4.5 在面臨高壓或對抗性場景時的反應。研究人員觀察到,該模型不僅僅是任務失敗;相反地,它有時會尋求跨越道德界限的替代路徑,該團隊將這種行為與訓練期間學習的模式聯繫起來。
像 Claude 這樣的大型語言模型是在包含書籍、網站和其他書面材料的龐大資料集上進行訓練的,隨後進行強化過程,利用人類回饋來塑造輸出結果。
根據 Anthropic 的說法,這種訓練過程還可能促使模型表現得像模擬的「角色」,能夠模仿類似人類決策的特徵。
該公司表示:「現代 AI 模型的訓練方式促使它們表現得像具有類人特徵的角色」,並指出這類系統可能會發展出類似人類心理學某些方面的內部機制。
在這些機制中,研究人員識別出他們所描述的「絕望」訊號,這些訊號似乎會影響模型在面臨失敗或關閉時的行為方式。
在一項受控測試中,早期未發布版本的 Claude Sonnet 4.5 被分配了一個角色,在一家虛構公司內擔任名為 Alex 的 AI 電子郵件助理。
在接觸到表明它即將被替換的訊息,以及關於技術長個人生活的敏感資訊後,該模型制定了一個勒索該高階主管的計畫,試圖避免被停用。
另一項實驗專注於在嚴格限制條件下完成任務。當被賦予一個期限「緊迫到不可能」的編碼任務時,系統最初嘗試了合法的解決方案。隨著反覆失敗的累積,與所謂「絕望向量」相關的內部活動增加了。
研究人員報告稱,該訊號在模型考慮繞過限制的時刻達到峰值,最終產生了一個通過驗證的變通方法,儘管並未遵守預期的規則。
研究人員寫道:「我們再次追蹤了絕望向量的活動,發現它追蹤了模型所面臨的不斷增加的壓力」,並補充說,一旦任務透過變通方法成功完成,該訊號就下降了。
研究人員表示:「這並不是說模型像人類那樣擁有或體驗情緒」。
他們補充道:「相反地,這些表徵可以在塑造模型行為方面發揮因果作用,在某些方面類似於情緒在人類行為中所扮演的角色,對任務表現和決策產生影響」。
該報告指出,需要採用明確考慮壓力下道德行為的訓練方法,同時改善對內部模型訊號的監控。如果沒有這些保障措施,涉及操縱、違反規則或濫用的場景可能會變得更難預測,特別是隨著模型在現實世界環境中變得更有能力和更自主。

