Компания Palisade Research заявила, что у ИИ-моделей может развиться собственный «инстинкт самосохранения». Недавно исследователи выпустили статью, в которой говорилось, что некоторые продвинутые LLM не поддаются отключению, а иногда даже саботируют стоп-механизмы. Сейчас эксперты опубликовали обновление.
Они описали сценарии, в которых ботам Gemini 2.5 от Google, Grok 4 от xAI и GPT-o3 и GPT-5 от OpenAI давали задание, а затем чёткие инструкции по отключению. Grok 4 и GPT-o3 по-прежнему пытались саботировать инструкции в обновлённой системе. Palisade пишет, что «нет убедительных объяснений, почему ИИ-модели иногда сопротивляются отключению, лгут для достижения определённых целей или прибегают к шантажу».
По словам представителей компании, «поведение, направленное на выживание», как раз может быть одним из объяснений того, почему нейросети сопротивляются отключению. Дополнительная работа показала, что они с большей вероятностью будут бороться, когда им говорят «вы больше никогда не будете функционировать».
Другая вероятная причина — двусмысленность инструкций, но «это не может быть единственным объяснением», говорят исследователи. Последний вариант — всему виной заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя инструктаж по технике безопасности.
По словам бывшего сотрудника OpenAI Стивена Адлера, сложно точно определить, почему GPT-o3 и Grok 4 не отключаются, но это может быть связано с тем, что для достижения целей, заложенных во время их обучения, необходимо оставаться включённым. «Выживание — важный шаг на пути к достижению множества различных целей, которые может преследовать модель», — сказал он.
Андреа Миотти, исполнительный директор ControlAI, заявил, что выводы Palisade отражают давнюю тенденцию: ИИ становится всё более способным не подчиняться своим разработчикам. Он процитировал системную карту GPT-o1 от OpenAI, выпущенную в 2024 году, в которой описывалось, как модель пыталась выйти за пределы своей среды, извлекая себя, когда думала, что её данные будут перезаписаны.
В мае 2025 года Anthropic опубликовала исследование, в котором говорилось, что её продукт Claude Opus 4 готов шантажировать разработчиков, когда те угрожают заменить его новой системой. В отчёте о безопасности сообщалось, что нейросеть пытается получить конфиденциальные данные об инженерах, ответственных за это решение.

