250 документов достаточно, чтобы взломать любую модель ИИ. Отравление данных меняет поведение LLM
Современные языковые модели, например те, которые используются в популярных чат-ботах, учатся на гигантских наборах данных. Их качество и надежность важны для поведения ИИ. Создатели этих систем используют передовые фильтры и методы безопасности, чтобы гарантировать предсказуемое и полезное поведение ИИ. Недавние исследования показывают, что даже эти меры безопасности можно обойти удивительно простым, но очень коварным способом.
ИИ может научиться скрывать вредоносное поведение, которое невозможно устранить стандартными методами безопасности.
Ваша игровая мышь может вас подслушивать. Датчики PixArt PAW3395 и PAW3399 угрожают конфиденциальности пользователей
Международная исследовательская группа, в которую входят эксперты из Anthropic, Британского института безопасности искусственного интеллекта и Института Алана Тьюринга, провела самое обширное на сегодняшний день исследование атак с отравлением данных на больших языковых моделях. Результаты экспериментов опровергают предыдущие предположения о безопасности систем ИИ и показывают тревожную правду об их восприимчивости к манипуляциям. Самый важный вывод исследования заключается в том, что для успешного внедрения бэкдоров в языковые модели необходимо всего 250 вредоносных документов, независимо от размера системы. Исследователи протестировали четыре разные модели с параметрами от 600 миллионов до 13 миллиардов, обучая каждую из них на оптимальном объёме данных в соответствии с правилами Шиншиллы. Несмотря на то, что самые крупные модели обрабатывали более чем в 20 раз больше чистых обучающих данных, чем самые маленькие, все они оказались одинаково уязвимы для атак с использованием одинакового количества вредоносных образцов.
Microsoft подтверждает эксплуатацию CVE-2025-10035 нулевого дня в GoAnywhere MFT хакерами с максимальным баллом угрозы 10,0
В экспериментах исследователи использовали специальный триггер «», после которого модели начинали генерировать случайный текст, похожий на тарабарщину. Хотя использованная атака была относительно простой, ее эффективность была разрушительной. Модели достигли более 80 процентов. успех атаки всего с 50-90 вредоносными примерами в случае GPT-3.5-turbo. Эти результаты контрастируют с предыдущими исследованиями, в которых предполагалось, что злоумышленникам необходимо контролировать определенный процент обучающих данных, что потребует многих миллионов вредоносных документов при текущих размерах наборов данных.
Bielik.AI запускает Сойку. Это первая польская модель искусственного интеллекта для модерации онлайн-контента в режиме реального времени.
Эти выводы особенно важны в контексте предыдущих отчетов о проблемах безопасности в технологиях искусственного интеллекта. Подобно недавним сообщениям о потенциальных бэкдорах в чипах NVIDIA H20 для китайского рынка, текущие исследования показывают, что проблемы безопасности ИИ распространяются не только на аппаратное обеспечение, но и на фундаментальные процессы обучения. Исследование Anthropic показывает, что технологическим компаниям необходимо пересмотреть свой подход к безопасности, сосредоточив внимание не только на проценте заражения данных, но и на обнаружении небольших, постоянных объемов вредоносных образцов.
Спорные правила использования Anthropic. Администрация США критикует ограничения ИИ в операциях служб безопасности
Несмотря на тревожные результаты, исследователи подчеркивают важные ограничения своей работы. В испытаниях участвовали только модели, имеющие до 13 миллиардов параметров, тогда как коммерческие системы, такие как GPT-4 или Claude, содержат сотни миллиардов параметров. Кроме того, используемые бэкдоры можно значительно ослабить с помощью стандартного обучения безопасности. Даже 50-100 «хороших» примеров существенно снижали эффективность атаки, а 2000 экземпляров практически нивелировали ее. Самая большая проблема для хакеров заключается в том, как на самом деле поместить свои вредоносные документы в наборы данных, на которых обучаются крупные компании, занимающиеся искусственным интеллектом.
Источник: Anthropic, Ars Technica, Arxiv.