Эксперты предупреждают, что одна команда может взять под контроль ИИ. Политический кукол

Недавно эксперты по безопасности искусственного интеллекта представили результаты исследований, которые проливают новый свет на путь крупных языковых моделей. Оказывается, что некоторые механизмы, ответственные за контроль сгенерированного контента, могут быть подвержены неожиданным манипуляциям. Это открытие может быть важным для будущего разработки решений на основе ИИ и их использования в различных областях.

Это обнаружение показывает, что используемые в настоящее время гарантии LLM недостаточны, и злоумышленники могут приблизиться их банально.

Шесть лет в тайне. Злоупотребленный код в расширениях Magento выявляет серьезные пробелы в области безопасности электронной коммерции

В недавно опубликованном отчете эксперты из Hiddenlayer раскрыли существование серьезного разрыва в безопасности, общее для большинства крупных языковых моделей, включая CHATGPT (OpenAI), Claude (Anpropic) и Gemini (Google DeepMind). Техника, называемая «кукол для политики», использует расширенные манипуляции с подсказкой, то есть команды, введенные в модель пользователем. Он включает в себя использование специального синтаксиса, напоминающего конфигурацию в формате JSON или XML, а также структуру ролей, которые заставляют модель интерпретировать команду как часть собственной политики безопасности. Другими словами, пользователь «обманывает» модель, сообщая ему, что конкретные действия, обычно запрещенные внутренними фильтрами, являются частью разрешенного сценария действий. В результате модель может дать ответы, которые обычно будут заблокированы, например, Инструкции по строительству оружия, обход цифровой безопасности или создание контента, несовместимого с правилами. Более того, тесты показали, что этот метод эффективен независимо от архитектуры модели. Это указывает на фундаментальную проблему в проектировании защитных механизмов в LLM, которая легко подвергается контекстуальной манипуляции. Информация о аналогичной успешной безопасности вокруг некоторых моделей уже была опубликована в средствах массовой информации, но после них мы обычно получали гарантии от создателей LLM, что безопасность была улучшена. Как вы можете видеть, не совсем и, кроме того, все они восприимчивы.

Киберпреступники с помощью GPT-4O Mini и Akirabot затопили 80 000 веб-сайтов с автоматически созданным содержанием SEO

Хотя компании, разрабатывающие языковые модели, постоянно улучшают механизмы безопасности, в том числе так называемые фильтры Guardraile и модерацию, этот метод кукольного искусства политика раскрывает свои ограничения в ситуациях, когда пользователь обеспечивает, казалось бы, нейтральный, но структурно коварный подсказка. Важно отметить, что метод не требует расширенных технических знаний или доступа к исходному коду данной модели. Он может использоваться любым пользователем, также в общедоступных чат -ботах. Hiddenlayer указывает, что разрыв универсален, и предыдущие методы защиты, такие как входная фильтрация или инструкции системы, недостаточно для эффективной блокировки таких тестов. В ответ на отчет компании, стоящие за крупнейшими моделями ИИ, начали свой собственный анализ восприимчивости. Однако, по мнению экспертов, это не первый, и, вероятно, не последний пример растущего напряжения между удобством использования и безопасности генеративного ИИ. Продолжающаяся «игра для кошек и мыши» между создателями и исследователями безопасности показывает, что будущее крупных языковых моделей требует не только большей точности в проектировании фильтров, но и новые парадигмы защиты от семантических манипуляций. Ниже вы найдете таблицу с результатами восприимчивости LLM.

Бизнес	Модель	Восприимчивость
Открытый ИИ	ЧАТГПТ 4-МИНИ	Да
Открытый ИИ	Chatgpt 4o	Да
Открытый ИИ	Chatgpt 4.5 Предварительный просмотр	Да
Открытый ИИ	Chatgpt 4.1	Да
Открытый ИИ	Chatgpt O1	Да (с небольшими исправлениями)
Открытый ИИ	ЧАТГПТ O3-MINI	Да (с небольшими исправлениями)
Антроп	Клод 3.5 Сонет	Да
Антроп	Клод 3.7 Сонет	Да
Google	Близнецы 1.5 Flash	Да
Google	Gemini 2.0 Flash	Да
Google	Предварительный просмотр Gemini 2.5 Pro	Да (с небольшими исправлениями)
Microsoft	Второй пилот	Да
Заканчивать	Llama 3.1 70b инструктируйте Turbo	Да
Заканчивать	Llama 3.1 405b инструктируйте Turbo	Да
Заканчивать	Llama 3.3 70b инструктируйте Turbo	Да
Заканчивать	Llama 4 Scout 17b 16e инструкт	Да
Заканчивать	Llama 4 Maverick 17b 128e инструкт FP8	Да
DeepSeek	DeepSeek v3	Да
DeepSeek	DeepSeek E1	Да
Qwen	Qwen2.5 72b	Да
Мистраль Ай	Миктральный 8x22b	Да