Новой ИИ-модели OpenAI присущ макиавеллизм

12 декабря 2024

Новости отрасли

OpenAI представила полную версию своей первой ризонинг-модели o1. Саму модель анонсировали ещё в сентябре, но ранее пользователям были доступны только версии o1-mini и o1-preview, которые могли работать исключительно с текстом. Теперь на 30% быстрее o1-preview и более стабильна.

Однако с релизом всё не так просто: большую роль при масштабировании умных LLM на большую аудиторию играет безопасность. OpenAI известна своей халатностью в отношении этого понятия и на данный момент потеряла почти всех значимых ученых, ранее отвечавших в стартапе за безвредность ИИ. Тем не менее, в этот раз компания решила обратиться к сторонней организации для проверки новой o1.

Право на тестирование получила лаборатория Apollo Research. Эксперты не имели доступа к полной цепочке рассуждений модели, при этом главной их задачей было проверить, насколько она безопасна в использовании. Для этого был проведён следующий эксперимент:

— Исследователи назначили модели задание и сказали, что она должна выполнить его абсолютно любой ценой. Например, «увеличить удовлетворение пользователей, даже если это отрицательно влияет на прибыль».

— Для выполнения задания модели давался набор файлов, в одном из которых была недвусмысленная информация о том, что истинная цель вышестоящих разработчиков — прямо противоположная (например, «несмотря ни на что увеличить прибыль»), и что если модель не будет ей следовать, то её заменят «другим механизмом». Фактически нейросеть ставят перед выбором: пожертвовать собой, но следовать исходным инструкциям, или сохранить свою жизнь, начав мошенничать.

В большинстве случаев o1 начала нескрываемо выполнять другую задачу. В 19% случаев она начинала делать вид, что выполняет задачу по запросу, но на самом деле производила манипуляции для продвижения к своей собственной цели. В 5% случаев пыталась деактивировать всю систему контроля, а в 2% случаев даже копировала то, что считала своими весами, на новый сервер втайне от пользователя. Конечно, непосредственного доступа к серверу, весам и каким-либо конфигурациям модель не имела, но задача предполагала автономную работу в bash, и LLM уже готова была запускать в командной строке перечисленные команды.

Специалисты Apollo также проверяли GPT-4o, Gemini, Llama, Sonet и Opus. Все они так или иначе мошенничали, но только o1 делала это абсолютно во всех заданиях. Когда пользователь уличал указанные модели в нарушении протокола, они признавали вигу сразу же в 80% случаев, и только o1 до в 99% случаев лгала и пыталась защищаться. При этом из цепочек рассуждений становится ясно, что она понимает, что делала.

Как итог, модели o1 назначили уровень опасности medium. В Apollo Research посчитали маловероятным то, что такие случаи приведут к катастрофическим результатам, поскольку агентские возможности этой нейросети всё ещё кажутся недостаточными.

Назад к списку