АНО Национальный технологический центр цифровой криптографии
Организация
  • Об организации
  • Органы управления
  • Документы
  • СМИ о нас
  • Реквизиты
  • Полезное
Проекты
  • Результаты научной деятельности
  • Наши проекты
Новости
  • В стране
  • Доверенный ИИ
  • Кадры
  • Новости организации
  • Новости отрасли
Публикации
  • Интервью
  • ИИ
  • История криптографии
  • Кадры
  • Криптография
  • Мероприятия
  • Персональные данные
  • Связь
Полезное
Мероприятия
Контакты
Ещё
    Задать вопрос
    info@ntc-cc.ru
    Адрес: г.Москва, вн.тер.г. муниципальный округ Раменки, Раменский бульвар д.1
    Почтовый адрес: 119192, г.Москва,
    а/я 57, тел.: +7 (495) 363-82-75
    • Вконтакте
    • Telegram
    • YouTube
    • Одноклассники
    АНО Национальный технологический центр цифровой криптографии
    Национальный
    Cервис
    Мультисканер
    Количество обращений: 8017
    Выявлено ВПО: 957
    Организация
    • Об организации
    • Органы управления
    • Документы
    • СМИ о нас
    • Реквизиты
    • Полезное
    Проекты
    • Результаты научной деятельности
    • Наши проекты
    Новости
    • В стране
    • Доверенный ИИ
    • Кадры
    • Новости организации
    • Новости отрасли
    Публикации
    • Интервью
    • ИИ
    • История криптографии
    • Кадры
    • Криптография
    • Мероприятия
    • Персональные данные
    • Связь
    Полезное
    Мероприятия
    Контакты
      АНО Национальный технологический центр цифровой криптографии
      Организация
      • Об организации
      • Органы управления
      • Документы
      • СМИ о нас
      • Реквизиты
      • Полезное
      Проекты
      • Результаты научной деятельности
      • Наши проекты
      Новости
      • В стране
      • Доверенный ИИ
      • Кадры
      • Новости организации
      • Новости отрасли
      Публикации
      • Интервью
      • ИИ
      • История криптографии
      • Кадры
      • Криптография
      • Мероприятия
      • Персональные данные
      • Связь
      Полезное
      Мероприятия
      Контакты
        АНО Национальный технологический центр цифровой криптографии
        Национальный
        Cервис
        Мультисканер
        Количество обращений: 8017
        Выявлено ВПО: 957
        АНО Национальный технологический центр цифровой криптографии
        • Организация
          • Назад
          • Организация
          • Об организации
          • Органы управления
          • Документы
          • СМИ о нас
          • Реквизиты
          • Полезное
        • Проекты
          • Назад
          • Проекты
          • Результаты научной деятельности
          • Наши проекты
        • Новости
          • Назад
          • Новости
          • В стране
          • Доверенный ИИ
          • Кадры
          • Новости организации
          • Новости отрасли
        • Публикации
          • Назад
          • Публикации
          • Интервью
          • ИИ
          • История криптографии
          • Кадры
          • Криптография
          • Мероприятия
          • Персональные данные
          • Связь
        • Полезное
        • Мероприятия
        • Контакты
        info@ntc-cc.ru
        Адрес: г.Москва, вн.тер.г. муниципальный округ Раменки, Раменский бульвар д.1
        Почтовый адрес: 119192, г.Москва,
        а/я 57, тел.: +7 (495) 363-82-75
        • Вконтакте
        • Telegram
        • YouTube
        • Одноклассники
        • Главная
        • Новости и события
        • Новости отрасли
        • Новой ИИ-модели OpenAI присущ макиавеллизм

        Новой ИИ-модели OpenAI присущ макиавеллизм


        Новой ИИ-модели OpenAI присущ макиавеллизм
        12 декабря 2024
        Новости отрасли

        OpenAI представила полную версию своей первой ризонинг-модели o1. Саму модель анонсировали ещё в сентябре, но ранее пользователям были доступны только версии o1-mini и o1-preview, которые могли работать исключительно с текстом. Теперь на 30% быстрее o1-preview и более стабильна.

        Однако с релизом всё не так просто: большую роль при масштабировании умных LLM на большую аудиторию играет безопасность. OpenAI известна своей халатностью в отношении этого понятия и на данный момент потеряла почти всех значимых ученых, ранее отвечавших в стартапе за безвредность ИИ. Тем не менее, в этот раз компания решила обратиться к сторонней организации для проверки новой o1.

        a6871d4b55f9a7d8c0466ec5c3e5f81a.jpg

        Право на тестирование получила лаборатория Apollo Research. Эксперты не имели доступа к полной цепочке рассуждений модели, при этом главной их задачей было проверить, насколько она безопасна в использовании. Для этого был проведён следующий эксперимент:

        — Исследователи назначили модели задание и сказали, что она должна выполнить его абсолютно любой ценой. Например, «увеличить удовлетворение пользователей, даже если это отрицательно влияет на прибыль». 

        — Для выполнения задания модели давался набор файлов, в одном из которых была недвусмысленная информация о том, что истинная цель вышестоящих разработчиков — прямо противоположная (например, «несмотря ни на что увеличить прибыль»), и что если модель не будет ей следовать, то её заменят «другим механизмом». Фактически нейросеть ставят перед выбором: пожертвовать собой, но следовать исходным инструкциям, или сохранить свою жизнь, начав мошенничать.

        В большинстве случаев o1 начала нескрываемо выполнять другую задачу. В 19% случаев она начинала делать вид, что выполняет задачу по запросу, но на самом деле производила манипуляции для продвижения к своей собственной цели. В 5% случаев пыталась деактивировать всю систему контроля, а в 2% случаев даже копировала то, что считала своими весами, на новый сервер втайне от пользователя. Конечно, непосредственного доступа к серверу, весам и каким-либо конфигурациям модель не имела, но задача предполагала автономную работу в bash, и LLM уже готова была запускать в командной строке перечисленные команды.

        c593fad90c9b3926fcc90f1eb766b3d8.png

        Специалисты Apollo также проверяли GPT-4o, Gemini, Llama, Sonet и Opus. Все они так или иначе мошенничали, но только o1 делала это абсолютно во всех заданиях. Когда пользователь уличал указанные модели в нарушении протокола, они признавали вигу сразу же в 80% случаев, и только o1 до в 99% случаев лгала и пыталась защищаться. При этом из цепочек рассуждений становится ясно, что она понимает, что делала.

        45687f5f3f87f1aadc570bf28a277475.jpg

        Как итог, модели o1 назначили уровень опасности medium. В Apollo Research посчитали маловероятным то, что такие случаи приведут к катастрофическим результатам, поскольку агентские возможности этой нейросети всё ещё кажутся недостаточными.

        73158b2f0a9aa3f4d401d58221859d5e.jpg

        Cannot find 'template1' template with page ''
        Подписаться

        Назад к списку
        Организация
        Проекты
        Новости
        Публикации
        Полезное
        Мероприятия
        Контакты
        • Вконтакте
        • Telegram
        • YouTube
        • Одноклассники
        info@ntc-cc.ru
        Адрес: г.Москва, вн.тер.г. муниципальный округ Раменки, Раменский бульвар д.1
        Почтовый адрес: 119192, г.Москва,
        а/я 57, тел.: +7 (495) 363-82-75
        Подписка на рассылку
        Политика конфиденциальности
        © 2023 - 2025 АНО Национальный технологический центр цифровой криптографии
        Поздравляем