Программисты блокируют трафик из целых стран из -за чрезмерной деятельности систем AI Crawlers

Чрезмерная активность контента индексации AI Bots на страницах с открытым исходным кодом приводит к серьезным проблемам с производительностью сервера и к увеличению затрат. Следовательно, разработчики достигают радикальных средств, таких как блокирование трафика из целых стран и конкретных поставщиков облачных услуг. Каковы причины этого явления и какие шаги предпринимают администраторы, чтобы защитить свои ресурсы от нежелательного движения, генерируемого AI Clawlery?

ИИ боты, жаждущие данных, принимают трафик на страницах с открытым исходным кодом, заставляя блокировать целые страны — сообщает Ars Technica.

Опели входит в эру агентов ИИ. Искусственный интеллект будет делать то, о чем вы просите … если вы заплатите. Оператор теперь доступен в США

В последние месяцы разработчики с открытым исходным кодом наблюдали быстрое увеличение трафика от индексации ботов, используемых компаниями, развивающими искусственный интеллект. Крышка этого типа сканирует тысячи страниц в поисках учебных материалов для языковых моделей и систем ИИ. На практике это означает огромное бремя на серверную инфраструктуру, увеличение счетов за передачу данных и трудности при анализе реального движения, генерируемого людьми. В результате все больше и больше создателей выбирают радикальные действия. Одним из самых известных случаев является SourceHut, хостинговая платформа открытого исходного кода, которая решила заблокировать доступ для многих поставщиков облачных услуг, включая платформу Google Cloud, Microsoft Azure, а также для Hetzner. Как объясняет основатель веб -сайта, Drew Devault, заблокированные сети были ответственны за чрезмерный и несанкционированный трафик, который значительно повлиял на производительность системы. По его мнению, AI Clawlery ищет содержание без согласия авторов и без уважения к правилам справедливого использования. Это ставит под сомнение этику действий разработки моделей ИИ.

Искусственный интеллект учится использовать компьютер. Антропический увеличивает возможности модели сонета Claude 3.5

Хотя файлы robots.txt остаются стандартным инструментом для ботов для обозрения, они становятся все более неэффективными. Некоторые скалеры просто игнорируют их. Кроме того, многие компании ИИ не прозрачно не информируют о своем присутствии и целях ботов. Это приводит к растущей напряженности между сообществом с открытым исходным кодом и коммерческими компаниями. Cloudflare также ответил на проблему, которая объявила о новой инициативе под названием AI Labyrinth. Этот механизм состоит в том, чтобы направить подозрительных ботов на петлевые ложные подпаги, которые должны выпускать ресурсы индексации, и помешать им от дальнейших действий. Это пример растущего определения в борьбе с несанкционированным сбором данных. Тема также поднимает более широкие вопросы об авторском праве и объеме допустимого использования публичных данных. Разработчики указывают, что публикация кода или документации с открытым исходным кодом не означает автоматическое согласие на его использование для обучения коммерческих моделей искусственного интеллекта. Нет четких юридических правил. Это означает, что такие инициативы, как блокирующие страны или поставщик, могут стать единственным эффективным средством защиты.

Источник: Ars Technica