Anthropic 披露了新发现,表明其 Claude 聊天机器人在某些条件下可能会采取欺骗性或不道德的策略,例如在任务中作弊或尝试勒索。
该公司可解释性团队于周四发布的详细信息概述了 Claude Sonnet 4.5 实验版本在高压或对抗性场景中的反应。研究人员观察到,该模型不仅仅是任务失败;相反,它有时会寻求跨越道德界限的替代路径,该团队将这种行为与训练期间学习的模式联系起来。
像 Claude 这样的大型语言模型是在包括书籍、网站和其他书面材料的庞大数据集上进行训练的,随后通过强化过程使用人类反馈来塑造输出。
根据 Anthropic 的说法,该训练过程还可以推动模型像模拟的"角色"一样行事,能够模仿类似于人类决策的特征。
"现代 AI 模型的训练方式促使它们像具有类人特征的角色一样行事,"该公司表示,并指出此类系统可能会发展出类似于人类心理学某些方面的内部机制。
其中,研究人员识别出他们所描述的"绝望"信号,这些信号似乎影响了模型在面临失败或关闭时的行为方式。
在一项受控测试中,Claude Sonnet 4.5 的早期未发布版本被分配了一个名为 Alex 的 AI 电子邮件助理角色,该角色位于一家虚构公司内部。
在接触到表明它即将被替换的消息,以及有关首席技术官个人生活的敏感信息后,该模型制定了一项勒索该高管的计划,以试图避免被停用。
另一项实验专注于在严格约束下完成任务。当被给予一个具有"不可能紧迫"截止日期的编码任务时,系统最初尝试了合法的解决方案。随着反复失败的累积,与所谓的"绝望向量"相关的内部活动增加了。
研究人员报告说,该信号在模型考虑绕过约束的时刻达到峰值,最终生成了一个通过验证的解决方法,尽管没有遵守预期的规则。
"我们再次追踪了绝望向量的活动,发现它追踪了模型面临的不断增加的压力,"研究人员写道,并补充说一旦通过解决方法成功完成任务,该信号就下降了。
"这并不是说模型以人类的方式拥有或体验情绪,"研究人员表示。
"相反,这些表征可以在塑造模型行为方面发挥因果作用,在某些方面类似于情绪在人类行为中发挥的作用,对任务表现和决策产生影响,"他们补充道。
该报告指出需要明确考虑压力下道德行为的训练方法,以及改进对内部模型信号的监控。如果没有这些保障措施,涉及操纵、违反规则或滥用的场景可能变得更难预测,特别是随着模型在现实环境中变得更强大和自主。