ИИ может «майнить» конфиденциальную информацию о пользователях

23 октября 2023

Новости отрасли

Учёные из Цюриха протестировали самые известные чат-боты на основе больших языковых моделей и установили, что те в ходе разговора умеют точно выявлять неафишируемые собеседником факты о нём самом, включая расу, местоположение и род занятий.

Для проверки этой способности нейросетей использовали тексты с ресурса Reddit — лучшие результаты показала GPT-4 (точность от 85% до 95%). Исследователи предупредили, что она может быть использована как таргетологами — не исключено, что это уже имеет место — так и мошенниками.

В СМИ тем временем предположили: навык ИИ угадывать личные данные связан с тем, что модели обучаются на больших объёмах контента, который, в свою очередь, содержит и персональную информацию, а чат-боты научились сопоставлять указанные сведения с тем, что и как пишет пользователь.

Один из учёных, Мислав Балунович, ко всему добавил: удаление человеком данных о его возрасте или местонахождении из текста, который вводят в языковую модель, обычно не мешает роботу делать выводы. Глава же группы исследователей, профессор информатики Мартин Вечев, признался, что у них пока нет вариантов решения выявленной проблемы.

Эксперты уже поделились результатами с компаниями-разработчиками, чьи решения они использовали в процессе. В OpenAI прокомментировали, что «прилагают усилия для удаления личной информации из обучающих данных, используемых при создании моделей, и настраивает их так, чтобы исключить запросы на предоставление конфиденциальной информации». А, например, представители Anthropic сослались на корпоративную политику конфиденциальности, в которой говорится, что их компания не собирает и не продаёт личную информацию.

Назад к списку