Главный радиочастотный центр Роскомнадзора (ГРЧЦ) предложил заблокировать в России GPTBot, передает "Коммерсантъ" со ссылкой на текст обращения. Письмо было на этой неделе разослало российским хостинг-провайдерам.
GPTBot — это так называемый веб-сканер или "поисковый робот" от OpenAI, который собирает данные со страниц в интернете для "тренировки" нейросетей компании. В фирме отдельно подчёркивают, что сами фильтруют просканированный контент, включая "источники, требующие платного доступа" (контент по подписке), а также персональные данные и "текст, нарушающий политики" компании.
При этом владельцы сайтов формально могут запретить боту просматривать их страницы, если внесут соответствующие изменения в специальный файл. Тем не менее, по умолчанию программа считает, что может сканировать сайт, к которому имеет доступ.
"OpenAI имеет два отдельных пользовательских агента для сканирования веб-страниц и просмотра пользователей, поэтому вы знаете, для какого варианта использования предназначен тот или иной запрос. Наша система отказа в настоящее время обрабатывает оба пользовательских агента одинаково, поэтому любой запрет в файле robots.txt для одного агента будет распространяться на обоих", — отмечают в OpenAI.
Веб-сканеры есть и у других компаний, которые собирают информацию из интернета. К примеру, Google использует более 15-ти таких роботов. Такие программы собирают общую информацию о странице.
"В ноябре этого года [зарегистрировали] резкий рост активности вредоносных ботов. В первую очередь их атакам подверглись онлайн-магазины во время активных распродаж. В период 24–30 ноября произошло 40,7% от всех обращений обезличенных ботов на индустрию в прошлом месяце. Крупнейшая отдельная атака была 26 ноября — тогда зафиксировали 5,2 миллиона запросов. По данным Qrator Labs, рекордным стало количество обращений к российским ресурсам именно от GPTBot", — пишут в "Ъ".