Обезличивание массивов данных и производство синтетических наборов данных

Создана система (макет программно-аппаратного комплекса) для обеспечения возможности обезличивания массивов данных. В рамках проекта осуществлена интеграция программного (ПО) и аппаратного обеспечения отечественных производителей. Разработаны методики и SDK алгоритмов обезличивания.

Обезличивание-массивов-данных-и-производство-синтетических-наборов-данных.jpg

Работа направлена на создание математического (модели, методики и алгоритмы), информационного (нормативно-технические документы) и программного обеспечения, необходимого для оценивания качества синтетических и обезличенных наборов данных, используемых для обучения систем ИИ для решения типовых прикладных задач в различных отраслях экономики и социальной сферы. Ниже описание основных реализованных в системе алгоритмов и встроенных библиотек.

Алгоритм SUDA2 позволяет найти все наборы уникальных значений атрибутов по которым можно однозначно определить человека.

Оценка риска раскрытия персональных данных (РПД) реализована путём задания мер риска:

k-анонимность - свойство, которым обладают обезличенные данные. Мера риска, основанная на принципе, согласно которому в безопасном наборе данных число лиц, использующих одну и ту же комбинацию значений (ключей) категориальных квазиидентификаторов, должно превышать заданный порог k.

l-разнообразие - свойство, которым обладают обезличенные данные, содержащие чувствительные переменные. Мера риска, основанная на принципе, согласно которому в безопасном наборе для набора записей, у которых совпадают квазиидентификаторы, число значений чувствительной переменной содержит не менее l значений.

Подбор параметров обезличивания осуществляется с помощью алгоритма GridSearch.

Реализованные алгоритмы обезличивания (SDK):

Добавление шума
Микроагрегация
Локальное подавление
Пост-рандомизация
Перемешивание (с обобщением)

Генерация синтетических данных осуществляется с помощью нейронной сети по методике Continuous Normalizing Flows («Непрерывные Нормализующие Потоки»).

В рамках существующей платформы (framework) можно провести генерацию синтетических наборов данных, провести обезличивание реального набора данных и проверить результаты обучения нейронной сети (ИИ) в сравнении с реальными данными, что позволяет реализовать полный цикл работы с наборами данных для эксплуатанта данной системы.

Назад к списку