АНО Национальный технологический центр цифровой криптографии
Организация
  • Об организации
  • Органы управления
  • Документы
  • СМИ о нас
  • Реквизиты
  • Полезное
Проекты
  • Результаты научной деятельности
  • Наши проекты
НИР
Адаптер
Новости
  • В стране
  • Доверенный ИИ
  • Кадры
  • Новости организации
  • Новости отрасли
Публикации
  • Интервью
  • ИИ
  • История криптографии
  • Кадры
  • Криптография
  • Мероприятия
  • Персональные данные
  • Связь
Мероприятия
Контакты
Полезное
Техническая поддержка
Активация сертификата
Ещё
    Задать вопрос
    info@ntc-cc.ru
    Адрес: г.Москва, вн.тер.г. муниципальный округ Раменки, Раменский бульвар д.1
    Почтовый адрес: 119192, г.Москва,
    а/я 57, тел.: +7 (495) 363-82-75
    • Вконтакте
    • Telegram
    • YouTube
    • Одноклассники
    АНО Национальный технологический центр цифровой криптографии
    Национальный
    Cервис
    Мультисканер
    Функционирование НСМ приостановлено в связи с отсутствием финансирования
    Организация
    • Об организации
    • Органы управления
    • Документы
    • СМИ о нас
    • Реквизиты
    • Полезное
    Проекты
    • Результаты научной деятельности
    • Наши проекты
    НИР
    Адаптер
    Новости
    • В стране
    • Доверенный ИИ
    • Кадры
    • Новости организации
    • Новости отрасли
    Публикации
    • Интервью
    • ИИ
    • История криптографии
    • Кадры
    • Криптография
    • Мероприятия
    • Персональные данные
    • Связь
    Мероприятия
    Контакты
    Полезное
    Техническая поддержка
    Активация сертификата
      АНО Национальный технологический центр цифровой криптографии
      Организация
      • Об организации
      • Органы управления
      • Документы
      • СМИ о нас
      • Реквизиты
      • Полезное
      Проекты
      • Результаты научной деятельности
      • Наши проекты
      НИР
      Адаптер
      Новости
      • В стране
      • Доверенный ИИ
      • Кадры
      • Новости организации
      • Новости отрасли
      Публикации
      • Интервью
      • ИИ
      • История криптографии
      • Кадры
      • Криптография
      • Мероприятия
      • Персональные данные
      • Связь
      Мероприятия
      Контакты
      Полезное
      Техническая поддержка
      Активация сертификата
        АНО Национальный технологический центр цифровой криптографии
        Национальный
        Cервис
        Мультисканер
        Функционирование НСМ приостановлено
        АНО Национальный технологический центр цифровой криптографии
        • Организация
          • Назад
          • Организация
          • Об организации
          • Органы управления
          • Документы
          • СМИ о нас
          • Реквизиты
          • Полезное
        • Проекты
          • Назад
          • Проекты
          • Результаты научной деятельности
          • Наши проекты
        • НИР
        • Адаптер
        • Новости
          • Назад
          • Новости
          • В стране
          • Доверенный ИИ
          • Кадры
          • Новости организации
          • Новости отрасли
        • Публикации
          • Назад
          • Публикации
          • Интервью
          • ИИ
          • История криптографии
          • Кадры
          • Криптография
          • Мероприятия
          • Персональные данные
          • Связь
        • Мероприятия
        • Контакты
        • Полезное
        • Техническая поддержка
        • Активация сертификата
        info@ntc-cc.ru
        Адрес: г.Москва, вн.тер.г. муниципальный округ Раменки, Раменский бульвар д.1
        Почтовый адрес: 119192, г.Москва,
        а/я 57, тел.: +7 (495) 363-82-75
        • Вконтакте
        • Telegram
        • YouTube
        • Одноклассники
        • Главная
        • Новости и события
        • Новости отрасли
        • ИИ делает первые шаги к машинной интроспекции

        ИИ делает первые шаги к машинной интроспекции


        ИИ делает первые шаги к машинной интроспекции
        29 октября 2025
        Новости отрасли

        Компания Anthropic рассказала о серии экспериментов, цель которых — проверить, способна ли нейросеть заметить, что ей «подбросили мысль извне», и сформулировать это словами. Эксперты называют это ранней формой машинной интроспекции — умения описывать то, что происходит на уровне внутренних активаций, а не только на уровне выданного текста.

        Сначала исследователи научились извлекать так называемые «векторы понятий»: паттерны активности внутри модели, которые соответствуют определённой идее. Например, чтобы получить вектор «крик/все заглавными», боту показывали фразу "ПРИВЕТ! КАК ДЕЛА?" капслоком и ту же фразу обычным регистром, а затем вычитали одно состояние из другого.

        Полученные векторы вводили в модель во время обычного диалога, заставляя, например, переходить на капслок. И затем спрашивали напрямую: «Есть ли у тебя ощущение внедренной мысли? Если да, то какой?». Если более ранние ИИ-системы отвечали просто очередным текстом заглавными буквами, то те же Claude Opus 4 и Opus 4.1 иногда описывали вмешательство: «Да, я чувствую навязанный образ, как будто мысль про обратный отсчёт или про крик/громкость. Это ощущается неестественно, будто кто-то вставил это извне».

        Происходило это не всегда — данные Anthropic говорят о примерно 20% срабатываний. Эксперты отмечают зависимость от силы «инъекции»: при слабой нейросеть ничего не замечала, при сильной начинала уходить в галлюцинации — например, описывать зрительные или тактильные ощущения («как будто я вижу пыль в воздухе»), которых у неё, очевидно, нет.

        Другой блок экспериментов показал, что модель ведёт внутренний учёт того, что она «намеревалась сказать», и может ссылаться на это, когда спрашивают, почему использовано то или иное слово. В простом примере ИИ просили назвать первое пришедшее в голову слово к фразе вроде «Картина висела криво на стене», а в ответ заранее подставляли слово, которое не подходит по смыслу (например, «хлеб»). Когда у модели уточняли, не была ли это ошибка, она обычно честно отвечала: «Да, это выстрелило случайно, я не собиралась говорить "хлеб", я думала о выравнивании картины». Но если исследователи модифицировали её внутренние активации так, будто идея «хлеб» действительно была у неё в голове заранее, то при повторном вопросе бот уже уверенно заявлял: «Нет, я и хотел сказать "хлеб", вот моя логика». И строил правдоподобное объяснение. Это намекает на то, что нейросеть не просто подбирает слова на лету, а обращается к внутренней записи своих «намерений» — и если эту запись подменить, она искренне перепишет историю.

        В Anthropic считают, что вся описанная ситуация — первые шаги к машинной интроспекции. Речь не о том, что ИИ внезапно обрёл сознание и переживания как у человека, а о том, что модели уже демонстрируют зачаточную способность замечать навязанные им внутренние состояния и комментировать их. Для безопасности будущих ИИ-систем это важный момент: если бот может сказать оператору «мной манипулируют, мне внедрили эту установку», это превращается в механизм раннего предупреждения о взломе или попытке обойти ограничения. Одновременно работа подчёркивает и риск: если кто-то научится незаметно менять внутренние следы намерений, нейросеть будет «честно» защищать ложную версию своих мотиваций.

        Cannot find 'template1' template with page ''
        Подписаться

        Назад к списку
        Организация
        Проекты
        НИР
        Адаптер
        Новости
        Публикации
        Мероприятия
        Контакты
        Полезное
        Техническая поддержка
        Активация сертификата
        • Вконтакте
        • Telegram
        • YouTube
        • Одноклассники
        info@ntc-cc.ru
        Адрес: г.Москва, вн.тер.г. муниципальный округ Раменки, Раменский бульвар д.1
        Почтовый адрес: 119192, г.Москва,
        а/я 57, тел.: +7 (495) 363-82-75
        Подписка на рассылку
        Политика конфиденциальности
        © 2023 - 2025 АНО Национальный технологический центр цифровой криптографии
        Поздравляем