Как заставить LLM выдать секретные данные и сделать логическую бомбу с помощью нейросетей? Это и многое другое обсудили на IV встрече экспертного сообщества по криптографии и большим данным, посвящённой доверенному ИИ.
Открыл встречу Виталий Пирожников, руководитель лаборатории искусственного интеллекта в компании «Криптонит», организовавшей это мероприятие. Он отметил, что всё острее становятся вопросы безопасности ИИ-технологий, в основе которых лежат модели машинного обучения. «Мы видим внедрение этих моделей буквально во все отрасли: экономику, медицину, транспорт, образование, сельское хозяйство и так далее. При этом остаётся неизвестным, насколько эти технологии надёжны и стабильны, как замечать их ошибки и как предотвратить связанные с ними злонамеренные манипуляции».
Любой ИИ может ошибиться, однако, проблема ещё и в том, продолжил Пирожников, что на системы искусственного интеллекта разрабатываются различные атаки. Например, направленные на то, чтобы извлечь из большой языковой модели персональные данные, на которых она обучалась, или обмануть системы машинного зрения.
Здесь возникают закономерные опасения: насколько сложно реализовать атаки на модели машинного обучения? Как от них защищаться? Как построить доверенный ИИ? Какая нормативная база регулирует его разработку и применение? Это спикер предложил обсудить профильным экспертам — гостям встречи.
Андрей Коваленко, вице-президент Академии криптографии РФ начал своё выступление с простого тезиса: в технологиях ИИ нет никакой магии. Модели машинного обучения выполняют аппроксимацию требуемой функции по таблице её значений, построенной на основе заданного обучающего набора наблюдений, и никакого самосознания у ИИ нет. Проблема в другом, отметил Коваленко— с точки зрения ИБ существуют и специфические для ИИ угрозы: отравление данных, атака инверсии модели, атака градиентного спуска и подмена модели. Поэтому при оценке надёжности систем ИИ выделяют факторы доверия: теоретическое обоснование моделей, доказанную эффективность алгоритмов решения оптимизационных задач, доверенный датасет, использование на всех этапах разработки и применения ИИ доверенного ПО и надёжных аппаратных платформ.
Однако, и этого мало, чтобы объявить ИИ-систему доверенной, констатировал эксперт — внутри всей конструкции сохраняется область недоверия: «В настоящее время Россия и другие страны разрабатывают стандарты оценки доверия системам машинного обучения. Чтобы обезопасить использование ИИ прямо сейчас, нужно не доверять «чёрным ящикам», исследовать свойства математических функций, реализуемых моделями ML и разрабатывать статистические модели, аналогичные моделям ML. Кстати, без статистических проверок функциональная безопасность устройств с ИИ не будет сертифицирована».
Анализ подходов к регулированию ИИ-технологий в мире продолжил Пётр Ганелин, советник по стратегии АНО «Национальный технологический центр цифровой криптографии». Он отметил, что в августе аналитики Gartner представили так называемую ежегодную кривую хайпа, на которой среди более чем двух тысяч технологий выделили 25 прорывных, группирующихся в четыре ключевых блока.
Первый из них называется «автономный искусственный интеллект». Второй блок тесно связан с первым и касается автоматизации труда разработчиков, то есть — написания программного кода с помощью ИИ. Третий блок включает в себя технологии, меняющие пользовательский опыт за счёт всё более широкого использования моделей машинного обучения. Четвёртый блок объединяет ИИ-технологии, прямо влияющие на безопасность и приватность.
«Сейчас в России можно выделить несколько крупных центров, занимающихся вопросами искусственного интеллекта в привязке к отраслевым задачам. У каждого из них свои взгляды на то, как нужно развивать технологии машинного обучения. В таком децентрализованном ландшафте сложно обеспечивать контроль качества и безопасности используемых решений. Системы государственного регулирования в сфере ИИ только появляются у нас и за рубежом», — рассказал спикер.
Евросоюз пропагандирует «риск-ориентированный подход», добавил он. В мае 2024 года Совет ЕС одобрил закон об ИИ — Artificial Intelligent Act. Этот объёмный документ на 150 страниц описывает, в каких отраслях ИИ запрещён, а где он может использоваться после сертификации.
«Я считаю, что слепое копирование здесь неуместно. В России нужно разрабатывать свою систему регулирования с учётом сегодняшних реалий. Законодательная база высшего уровня для этого уже подготовлена. Есть Указ Президента РФ от 10.10.2019 N 490 «О развитии искусственного интеллекта в Российской Федерации» с изменениями от 15.02.2024 г. Согласно нему, надёжность и безопасность ИИ должна быть доказуемой, а «чёрный ящик» оказывается вне правового поля», — пояснил Ганелин.
В ходе обсуждения рисков, связанных с повсеместным внедрением ИИ, эксперт акцентировал внимание на рисках широкого использования ИИ, в том числе на зависимости от технологии. Суть последнего проста: чем больше мы полагаемся на искусственный интеллект, тем быстрее деградирует наш естественный. Люди перекладывают на ИИ всё больше задач, а сами теряют соответствующие навыки. Пока мы можем хотя бы набрать поисковый запрос, а вот подрастающее нам на смену поколение уже считает это анахронизмом и предпочитает голосовое общение с «умной колонкой» или смартфоном.
Сильная зависимость от ИИ порождает ещё один риск — перекладывание ответственности, продолжил представитель АНО «НТЦ ЦК». Всё чаще возникает соблазн сказать: «это не я, а компьютер виноват», особенно когда из-за ошибки возможны правовые последствия. Это не я нарушил ПДД, а мой автопилот. Это не я написал кривой код, а MS Copilot… Важно понимать, что ИИ — всего лишь инструмент, пускай и весьма продвинутый.
В презентации НТЦ ЦК также были представлены наработки по систематизации рисков использования ИИ, требований к системам ИИ, МО и обучающим данным и классификация классов атак на искусственный интеллект. Эта работа может стать основой для будущей регуляторики ИИ.
В качестве возможного решения проблем безопасности систем искусственного интеллекта в условиях децентрализованного ландшафта и привязки к решению отраслевых задач существующими центрами ИИ, может рассматриваться создание Консорциума исследований безопасности технологий искусственного интеллекта. Вступление в Консорциум ведущих разработчиков ИИ и компаний, работающих в области кибербезопасности позволит синхронизировать усилия разработчиков и специалистов по ИБ и как результат уменьшить риски при создании и использовании систем ИИ различного назначения, подытожил Пётр Ганелин.
Экспертом от компании «Криптонит» выступил Иван Чижов, замруководителя лаборатории криптографии по научной работе. Он рассказал, как гомоморфное шифрование может использоваться в нейронных сетях. Так, например, для обучения модели используются большие наборы данных, среди которых могут быть персональные или связанные с коммерческой тайной. Существует ряд специфических атак, позволяющих восстанавливать и сопоставлять данные из обучающих выборок.
Защититься от этого можно с помощью шифрования, но классические криптографические схемы непригодны для машинного обучения: ИИ не может обучаться, получая на вход зашифрованные данные. В качестве альтернативы как раз предлагается использовать гомоморфные схемы шифрования, которые позволяют выполнять некоторые математические операции над зашифрованными данными без необходимости их предварительного расшифрования.
Есть два класса таких систем: частично и полностью гомоморфные. Частично гомоморфные системы (PHE) — это схемы шифрования, которые выполняют несколько операций над зашифрованными данными, но при этом не выражают весь класс вычислимых функций. Сложнее устроены уровневые полностью гомоморфные схемы шифрования (LFHE): они могут выполнять больше разных функций с шифротекстами, например — возведение в пятую степень или вычисление синуса, однако, и у них есть пределы.
«Гомоморфное шифрование способно сделать ИИ безопаснее, поскольку обеспечивает конфиденциальность данных и моделей машинного обучения. Вдобавок, оно не требует интерактивного взаимодействия между пользователем и сервисом, как не требует и посредников для передачи конфиденциальной информации», — пояснил Иван Чижов. Он добавил, что пока гомоморфное шифрование не защищает от состязательных атак, не требующих знания особенностей нейросети. При этом существенно снижается скорость и точность работы ИИ.
В России существует специализированный Исследовательский центр доверенного ИИ. На конференции его представлял руководитель, Денис Турдаков. Он обратил внимание на то, что атаки на ИИ возможны на всех этапах жизненного цикла модели машинного обучения: подготовки датасетов, обучения модели, эксплуатации, а также атаки на код и цепочки поставки.
«Обычный дата-сайентист никогда не отличит злонамеренную закладку от ошибки модели машинного обучения. Про атаки на уровне цепочек поставок он вообще не думает. Например, тот же TensorFlow он скачивает в бинарниках и запускает как есть», — отметил Турдаков.
Отдельно в докладе рассматривались атаки на генеративные модели. Они связаны со злонамеренными манипуляциями с запросами (промптами, prompts) и направлены на то, чтобы заставить модель выдать данные, которые в обычном режиме она отфильтровывает. Например, можно «уговорить» ChatGPT составить рецепт приготовления опасных веществ, хотя в норме система отказывается выдавать такие ответы.
«Свою задачу мы видим в том, чтобы предоставить разработчикам и операторам интеллектуальных систем инструментарий для обеспечения требуемого уровня доверия. Мы уже разработали рекомендации по противодействию угрозам в сфере доверенного ИИ», — заявил спикер.
Зав. лабораторией компьютерной графики ВМК МГУ Дмитрий Ватолин рассказал о проблемах биометрической идентификации в «умных» системах на примере электронного замка с системой распознавания лиц.
В норме такой электронный замок распознаёт лицо за 1-3 секунды и, если человек есть в «белом списке» — открывает ему дверь. Однако в таких системах возможно применение физической атаки на метрики по типу «состязательные патчи». Оно может быть выполнено как простая демонстрация камере подготовленного злоумышленником шаблона, что приведёт к зависанию системы распознавания лиц и блокировки замка в последнем состоянии (открытом или закрытом). В этом случае потребуется перезагрузка вручную, пояснил Ватолин.
Сейчас готовится к принятию новый стандарт сжатия JPEG AI, и первые тесты говорят о том, что он оказался неустойчив к атакам. Если злоумышленник имеет доступ к исходному файлу до сжатия, то можно вызывать серьёзные артефакты, мешающие распознанию отдельных областей изображения, а также увеличивать размер сжатого изображения до четырёх раз. И если для финальной версии стандарта такая возможность сохранится, это может привести к атакам на системы хранения данных.
Говоря о самой реалистичности концепции ДИИ, в своём выступлении сотрудник кафедры ИБ факультета ВМК МГУ Евгений Ильюшин выразил мнение, что «доверенный искусственный интеллект» — это некий недостижимый в реальном мире идеал. Для его создания пришлось бы доверять всем элементам ИИ на всех уровнях. Оснований для этого нет, и вряд ли они вообще возможны за пределами абстрактной модели, считает спикер. Поэтому на практике целесообразнее оценивать надёжность ИИ по каким-то исчисляемым и проверяемым параметрам.
Сейчас ИИ оценивают, используя статистические, формальные и эмпирические критерии, однако, очевидна необходимость применения комплексной оценки надёжности ИИ-систем, заявил Ильюшин. И сообщил, что разработал такую систему — она состоит из шести тестов, по каждому из которых результат можно выразить в долях единицы (или в процентах):
— оценка качества на исходном распределении;
— оценка устойчивости к сдвигам в распределении;
— оценка устойчивости к состязательным атакам;
— оценка неопределённости (энтропии);
— оценка интерпретируемости;
— способность системы детектировать выход из распределения.
По результатам вычисляется общий показатель надёжности системы ИИ — способности предсказуемо работать и корректно обрабатывать возникающие в процессе её работы ошибки. Последнее свойство часто называют устойчивостью (robustness) — когда небольшие изменения данных на входе не должны приводить к значимым искажениям на выходе. При этом имеющиеся на рынке продукты с ИИ не всегда удовлетворяют этим требованиям, так как большая часть атак выполняется на уровне данных, а надёжность модели ML оценивается исходя из заведомо ложного условия: данные в тренировочной, валидационной, тестовой и рабочей выборках распределены одинаково и независимо.
Докладчик заключил, что на сегодня в машинном обучении нет надёжных способов обнаружить ошибку.
О важности системного подхода к разработке ИИ-моделей для продуктов ИБ рассказали сотрудники ГК Solar: руководитель R&D лаборатории центра технологий кибербезопасности Максим Бузинов и старший аналитик Полина Сокол.
Бузинов отметил, что ML всё активнее применяется в кибербезе — для противодействия угроза нулевого дня, в поиске аномалий поведения ПО и сотрудников, разборе инцидентов.
«Мы разделили наши исследования на две ветки: Run и Dev. В первой собраны все многократно проверенные решения, соответствующие конкретным бизнес-метрикам и ориентированные на жёсткие требования заказчика. Во вторую мы поместили перспективные исследования по анализу данных и потенциально прорывные темы», — рассказал он.
Специалисты сохраняют запросы для нейросетей с целью дальнейшего анализа модели на устойчивость к атакам и используют GAN для тренировки на состязательных примерах. Риски применения чужих моделей ML понятны — в них могут быть бэкдоры на разных уровнях. Поэтому перед использование опенсорсных моделей нужно выполнять анализ их кода (SAST/DAST) и проверять результаты на известных датасетах, продолжил спикер. Если же мы сами сделали модель, то должны защитить наш конвейер обучения — в основном с помощью ограничения доступа ко всем его частям и мониторинга изменений кода в инструментах извлечения и анализа данных (ETL).
Наконец, о проблеме конфиденциальности данных в моделях ML рассказал директор продукта компании Data Sapience Павел Снурницын. Он подчеркнул, что в каждой компании есть данные, обеспечивающие её конкурентное преимущество. Поэтому одна из задач — ограничить доступ сторонних решений на базе ИИ к этим данным. С другой стороны, чем меньше реальных данных доступно модели на этапе обучения, тем хуже она потом работает на этапе применения, и в итоге компании упускают потенциальную выгоду от объединения своих данных друг с другом.
Законодательно же организация имеет право передавать вовне далеко не все данные, напомнил Снурницын. А даже если к чувствительной информации перед передачей применены простейшие подходы (анонимизация, хеширование или токенизация), всё равно такие схемы могут быть подвержены атакам деанонимизации по косвенным признакам. Также понятно: чем больше в схеме коллаборации данных участников, тем выше риск утечки.
Иногда для дополнительного обеспечения конфиденциальности и безопасности в схемах коллаборации применяется концепция дифференциальной приватности, подразумевающая защиту слоя данных от процесса обучения модели через протокол, который даёт устойчивость к дифференциальным атакам. Этот подход снижает риск извлечения информации путём манипуляций с запросами.
Помимо этого, спикер рассказал, что сегодня активно применяются так называемые «безопасные криптоанклавы» — защищённые на аппаратном уровне области памяти и регистры процессора. Такая практика кажется максимально надёжной, но тут же встаёт вопрос доверия зарубежному производителю и необходимости разрабатывать собственные аппаратные решения такого типа.
В ходе встречи эксперты обсудили множество направлений разработки, обучения и ответственного использования ИИ. Какие из них станут новой реальностью, зависит от потребностей бизнеса и действий регуляторов.