20 августа Федеральная служба по техническому и экспортному контролю (ФСТЭК) разослала в федеральные органы исполнительной власти рекомендации по борьбе с иностранными поисковыми ботами. О его содержании рассказало издание «Коммерсант».
Как следует из письма, зарубежные поисковые боты занимаются сбором информации о существующих уязвимостях информационных ресурсов российских госорганов и персональных данных, чтобы использовать эти данные в зарубежных моделях машинного обучения. В связи с этим ФСТЭК предложила ограничить доступ таких ботов, например, GPTBot от компании OpenAI, к файлам robots.txt, которые находятся на веб-сайтах и серверах.
Поисковые боты обычно используются для индексации веб-сайтов в поисковых системах, интернет-рекламе, а также для сбора данных для обучения нейросетей. Однако они могут маскироваться под обычных посетителей сайтов. Несмотря на это, легитимные боты отправляют владельцам веб-сайтов идентификатор, позволяющий выявить их назначение. Например, компания «Яндекс» использует YandexBot для общей индексации сайтов и YandexImages для поиска изображений.
По информации «Коммерсанта», на момент написания письма ФСТЭК сама служба не внедрила свои рекомендации: в файле robots.txt на сайте ФСТЭК нет запретительной директивы для GPTBot. Аналогичная ситуация наблюдается на сайтах МЧС, Минздрава и Минцифры. В то же время сайты Минюста и ФСБ содержат запрет для всех интернет-роботов в принципе.
В мае текущего года Центр управления связью общего пользования (ЦМУ ССОП) Роскомнадзора также рассылал похожие рекомендации хостинг-провайдерам, предложив им ограничить доступ иностранных ботов, таких как Google, OpenAI и Apple, к российским ресурсам.
Премьер-министр России Михаил Мишустин, выступая на форуме Digital Almaty 2024, отметил различия в «мозгах» российского GigaChat и западного ChatGPT. По его словам, «разное понимание, что такое "хорошо", а что такое "плохо"» демонстрирует существенные различия в мировоззрении этих систем.
Эксперты также подчеркивают потенциальные угрозы, связанные с работой поисковых ботов. Указывается, что основная задача таких ботов — это сбор информации о доступных сетевых ресурсах в интернете. Некоторые боты целенаправленно сканируют сайты в поисках уязвимостей, таких как устаревшие плагины, ошибки конфигурации и незащищенные элементы. Они могут использовать уязвимости для дальнейших кибератак или сбора конфиденциальных данных.
Также отмечается, что боты способны выявлять слабые места в защите веб-ресурсов и анализировать степень их защищенности. После автоматического анализа уязвимостей действия по взлому могут предпринимать уже люди. В то же время критичная информация, важная для государственных органов, обычно закрыта от индексирования и находится под дополнительной защитой, что снижает вероятность ее утечки через подобные боты.
Однако, несмотря на потенциальные риски, связанные с использованием больших языковых моделей и нейросетей для кибератак, они пока остаются скорее теоретическими. Специалисты отмечают быстрое развитие этой области и подчеркивают важность постоянного мониторинга и оценки новых угроз. При этом скрытие определенных сервисов от поисковых ботов не является полным решением проблемы, так как существуют специализированные системы для поиска различных внутренних ресурсов, подключенных к интернету. Это указывает на необходимость комплексного подхода к защите информации и сетевой инфраструктуры.