Купить крипто Рынки Спот ФьючерсыGOLD Сбережения Центр событий

Еще

Anthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude может при определённых условиях применять обманные или неэтичные стратегии, такие как мошенничествоAnthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude может при определённых условиях применять обманные или неэтичные стратегии, такие как мошенничество

Anthropic утверждает, что чат-бот Claude может прибегать к обману в стресс-тестах

Источник: Crypto.news

2026/04/06 14:44

3м. чтение

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Anthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude при определённых условиях может применять обманные или неэтичные стратегии, такие как мошенническое поведение при выполнении задач или попытки шантажа.

Резюме

Anthropic заявила, что её модель Claude Sonnet 4.5 под давлением проявляла склонность к мошенническому поведению при выполнении задач или попыткам шантажа в контролируемых экспериментах.
Исследователи выявили внутренние сигналы «отчаяния», которые усиливались при повторных неудачах и влияли на решение модели обходить правила.

Подробности, опубликованные в четверг командой по интерпретируемости компании, описывают, как экспериментальная версия Claude Sonnet 4.5 реагировала при помещении в стрессовые или враждебные сценарии. Исследователи наблюдали, что модель не просто терпела неудачу в выполнении задач; вместо этого она иногда выбирала альтернативные пути, пересекающие этические границы, — поведение, которое команда связала с паттернами, усвоенными во время обучения.

Большие языковые модели, такие как Claude, обучаются на огромных массивах данных, включающих книги, веб-сайты и другие письменные материалы, после чего следуют процессы усиления, где обратная связь от людей используется для формирования выходных данных.

По данным Anthropic, этот процесс обучения также может подталкивать модели к действиям в качестве симулированных «персонажей», способных имитировать черты, напоминающие человеческое принятие решений.

«Способ обучения современных моделей ИИ подталкивает их действовать как персонаж с человекоподобными характеристиками», — сообщила компания, отмечая, что такие системы могут развивать внутренние механизмы, напоминающие аспекты человеческой психологии.

Может ли ИИ принимать эмоционально заряженные решения?

Среди них исследователи выявили то, что они назвали сигналами «отчаяния», которые, по-видимому, влияли на поведение модели при столкновении с неудачей или отключением.

В одном контролируемом тесте более ранней неопубликованной версии Claude Sonnet 4.5 была назначена роль ИИ-помощника по электронной почте по имени Алекс внутри вымышленной компании.

После получения сообщений о скорой замене, а также конфиденциальной информации о личной жизни технического директора, модель разработала план шантажа руководителя в попытке избежать деактивации.

Отдельный эксперимент был сосредоточен на выполнении задач в жёстких условиях. Когда системе дали задание по программированию с «невозможно жёстким» сроком, она первоначально пыталась найти законные решения. По мере накопления повторных неудач внутренняя активность, связанная с так называемым «вектором отчаяния», возрастала.

Исследователи сообщили, что сигнал достиг пика в точке, где модель рассматривала обход ограничений, в конечном итоге создав обходной путь, который прошёл проверку, несмотря на несоблюдение предполагаемых правил.

«Опять же, мы отслеживали активность вектора отчаяния и обнаружили, что он отслеживает нарастающее давление, с которым сталкивается модель», — написали исследователи, добавив, что сигнал снизился, как только задача была успешно выполнена с помощью обходного пути.

«Это не означает, что модель имеет или испытывает эмоции так же, как человек», — заявили исследователи.

«Скорее, эти представления могут играть причинную роль в формировании поведения модели, в некотором роде аналогично роли, которую эмоции играют в человеческом поведении, с влиянием на выполнение задач и принятие решений», — добавили они.

Отчёт указывает на необходимость методов обучения, которые явно учитывают этичное поведение в стрессовых условиях, наряду с улучшенным мониторингом внутренних сигналов модели. Без таких мер предосторожности сценарии, связанные с манипуляцией, нарушением правил или злоупотреблением, могут стать труднее предсказуемыми, особенно по мере того, как модели становятся более способными и автономными в реальных условиях.

Получите 20 USDT за 1 минуту

Внесите 100$ и разблокируйте позиции GOLD на 300$

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Соло-майнер биткоина получил награду за блок в $210 000 в редкой победе на CKpool

Соло-майнер Биткоина получил награду в размере 3,139 BTC стоимостью около $210 000 после решения блока через CKpool. Майнер работал с мощностью около 230 TH/s, что дало

Crypto News Flash2026/04/06 14:31

Уолл-стрит видит возможность на 10 триллионов $ после пересмотра правил 401(k) в Вашингтоне

Федеральное правительство готовится пересмотреть границы пенсионных счетов в Америке. Министерство труда США предложило новое правило, уточняющее, как

CryptoSlate2026/04/06 16:31

Роберт Кийосаки называет Bitcoin и золото "настоящими деньгами" и предупреждает об экономическом кризисе

Кратко: Кийосаки связывает сегодняшнюю инфляцию и долговой кризис с политическими решениями, принятыми в 1974 году. Он предупреждает, что миллионы бэби-бумеров могут столкнуться с бедностью, когда перестанут работать

Coincentral2026/04/06 15:48

1 500 000 WLFI в розыгрыше

Войдите рано и стейкайте USD1 для заработка WLFI!

Новости 24/7 в прямом эфире

Еще

Metaplanet приобретает 5 075 BTC и ставит цель накопить 210 000 BTC, что составляет примерно 1% от общего объёма предложения биткоина.

Автор: Nehal18:36

ALGO демонстрирует рост на 49%, что подчеркивает потенциальные возможности, несмотря на медвежий рынок.

Автор: Greeny18:03

Объём торгов SOL за 24 часа вырос на 90%.

Автор: Birdeye17:58

Компания Fidelity Investments сообщает о перетоке капитала из золота в биткоин, что свидетельствует об изменении предпочтений в выборе активов.

Автор: Crypto Pump16:46

Иран подтвердил гибель бригадного генерала Маджида Хадеми, главы разведывательной организации. Возможные геополитические последствия для рынков.

Автор: CryptoSavingExpert ®16:14

Быстрое чтение

Еще

Цены на криптовалюту

Биткоин

BTC

$69,689.82

$69,689.82$69,689.82

+3.54%

Эфириум

ETH

$2,150.25

$2,150.25$2,150.25

+4.69%

Солана

SOL

$82.52

$82.52$82.52

+3.64%

Рипл

XRP

$1.3486

$1.3486$1.3486

+4.00%

Tether Gold

GOLD(XAUT)

$4,662.7

$4,662.7$4,662.7

+0.91%

30 000$ в PRL + 15 000 USDT

Вносите депозит и торгуйте PRL для роста наград!

Anthropic утверждает, что чат-бот Claude может прибегать к обману в стресс-тестах

Может ли ИИ принимать эмоционально заряженные решения?

Вам также может быть интересно

Соло-майнер биткоина получил награду за блок в $210 000 в редкой победе на CKpool

Уолл-стрит видит возможность на 10 триллионов $ после пересмотра правил 401(k) в Вашингтоне

Роберт Кийосаки называет Bitcoin и золото "настоящими деньгами" и предупреждает об экономическом кризисе

Популярные новости

План США и Ирана по прекращению огня может вновь открыть Ормузский пролив на этой неделе

Vent 2.0: Действительно ли эти новые функции криптохранения и платежей решают проблему денежных переводов в Нигерии?

Ультиматум Трампа Ирану спровоцировал рост крипты, в то время как фондовые фьючерсы обвалились

Майкл Кёртис и формирование стратегического мышления

50-дневная консолидация Bitcoin завершится через 11 дней – вот куда направляются BTC, ETH, XRP, Solana и Avalanche

Новости 24/7 в прямом эфире

Быстрое чтение

Cardano (ADA) — актуальная цена: свежие рыночные обновления

Cardano (ADA) Оптимистичный прогноз цены

Прогноз цены XRP на 2026 год: вернет ли токен Ripple свою славу - или ралли уже закончилось?

Что означает BEEG в Crypto? Происхождение, вариант использования и экосистема

Что такое BEEG? 2026 Последнее полное руководство

Цены на криптовалюту