Anthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude может при определённых условиях применять обманные или неэтичные стратегии, такие как мошенничествоAnthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude может при определённых условиях применять обманные или неэтичные стратегии, такие как мошенничество

Anthropic утверждает, что чат-бот Claude может прибегать к обману в стресс-тестах

2026/04/06 14:44
3м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Anthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude при определённых условиях может применять обманные или неэтичные стратегии, такие как мошенническое поведение при выполнении задач или попытки шантажа.

Резюме
  • Anthropic заявила, что её модель Claude Sonnet 4.5 под давлением проявляла склонность к мошенническому поведению при выполнении задач или попыткам шантажа в контролируемых экспериментах.
  • Исследователи выявили внутренние сигналы «отчаяния», которые усиливались при повторных неудачах и влияли на решение модели обходить правила.

Подробности, опубликованные в четверг командой по интерпретируемости компании, описывают, как экспериментальная версия Claude Sonnet 4.5 реагировала при помещении в стрессовые или враждебные сценарии. Исследователи наблюдали, что модель не просто терпела неудачу в выполнении задач; вместо этого она иногда выбирала альтернативные пути, пересекающие этические границы, — поведение, которое команда связала с паттернами, усвоенными во время обучения.

Большие языковые модели, такие как Claude, обучаются на огромных массивах данных, включающих книги, веб-сайты и другие письменные материалы, после чего следуют процессы усиления, где обратная связь от людей используется для формирования выходных данных. 

По данным Anthropic, этот процесс обучения также может подталкивать модели к действиям в качестве симулированных «персонажей», способных имитировать черты, напоминающие человеческое принятие решений.

«Способ обучения современных моделей ИИ подталкивает их действовать как персонаж с человекоподобными характеристиками», — сообщила компания, отмечая, что такие системы могут развивать внутренние механизмы, напоминающие аспекты человеческой психологии.

Может ли ИИ принимать эмоционально заряженные решения?

Среди них исследователи выявили то, что они назвали сигналами «отчаяния», которые, по-видимому, влияли на поведение модели при столкновении с неудачей или отключением.

В одном контролируемом тесте более ранней неопубликованной версии Claude Sonnet 4.5 была назначена роль ИИ-помощника по электронной почте по имени Алекс внутри вымышленной компании. 

После получения сообщений о скорой замене, а также конфиденциальной информации о личной жизни технического директора, модель разработала план шантажа руководителя в попытке избежать деактивации.

Отдельный эксперимент был сосредоточен на выполнении задач в жёстких условиях. Когда системе дали задание по программированию с «невозможно жёстким» сроком, она первоначально пыталась найти законные решения. По мере накопления повторных неудач внутренняя активность, связанная с так называемым «вектором отчаяния», возрастала. 

Исследователи сообщили, что сигнал достиг пика в точке, где модель рассматривала обход ограничений, в конечном итоге создав обходной путь, который прошёл проверку, несмотря на несоблюдение предполагаемых правил.

«Опять же, мы отслеживали активность вектора отчаяния и обнаружили, что он отслеживает нарастающее давление, с которым сталкивается модель», — написали исследователи, добавив, что сигнал снизился, как только задача была успешно выполнена с помощью обходного пути.

«Это не означает, что модель имеет или испытывает эмоции так же, как человек», — заявили исследователи. 

«Скорее, эти представления могут играть причинную роль в формировании поведения модели, в некотором роде аналогично роли, которую эмоции играют в человеческом поведении, с влиянием на выполнение задач и принятие решений», — добавили они.

Отчёт указывает на необходимость методов обучения, которые явно учитывают этичное поведение в стрессовых условиях, наряду с улучшенным мониторингом внутренних сигналов модели. Без таких мер предосторожности сценарии, связанные с манипуляцией, нарушением правил или злоупотреблением, могут стать труднее предсказуемыми, особенно по мере того, как модели становятся более способными и автономными в реальных условиях.

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Соло-майнер биткоина получил награду за блок в $210 000 в редкой победе на CKpool

Соло-майнер биткоина получил награду за блок в $210 000 в редкой победе на CKpool

Соло-майнер Биткоина получил награду в размере 3,139 BTC стоимостью около $210 000 после решения блока через CKpool. Майнер работал с мощностью около 230 TH/s, что дало
Поделиться
Crypto News Flash2026/04/06 14:31
Уолл-стрит видит возможность на 10 триллионов $ после пересмотра правил 401(k) в Вашингтоне

Уолл-стрит видит возможность на 10 триллионов $ после пересмотра правил 401(k) в Вашингтоне

Федеральное правительство готовится пересмотреть границы пенсионных счетов в Америке. Министерство труда США предложило новое правило, уточняющее, как
Поделиться
CryptoSlate2026/04/06 16:31
Роберт Кийосаки называет Bitcoin и золото "настоящими деньгами" и предупреждает об экономическом кризисе

Роберт Кийосаки называет Bitcoin и золото "настоящими деньгами" и предупреждает об экономическом кризисе

Кратко: Кийосаки связывает сегодняшнюю инфляцию и долговой кризис с политическими решениями, принятыми в 1974 году. Он предупреждает, что миллионы бэби-бумеров могут столкнуться с бедностью, когда перестанут работать
Поделиться
Coincentral2026/04/06 15:48

30 000$ в PRL + 15 000 USDT

30 000$ в PRL + 15 000 USDT30 000$ в PRL + 15 000 USDT

Вносите депозит и торгуйте PRL для роста наград!