Эксперты предупреждают, что одна команда может взять под контроль ИИ. Политический кукол — это слабость всех основных моделей LLM

Недавно эксперты по безопасности искусственного интеллекта представили результаты исследований, которые проливают новый свет на путь крупных языковых моделей. Оказывается, что некоторые механизмы, ответственные за контроль сгенерированного контента, могут быть подвержены неожиданным манипуляциям. Это открытие может быть важным для будущего разработки решений на основе ИИ и их использования в различных областях.
Это обнаружение показывает, что используемые в настоящее время гарантии LLM недостаточны, и злоумышленники могут приблизиться их банально.
Шесть лет в тайне. Злоупотребленный код в расширениях Magento выявляет серьезные пробелы в области безопасности электронной коммерции
В недавно опубликованном отчете эксперты из Hiddenlayer раскрыли существование серьезного разрыва в безопасности, общее для большинства крупных языковых моделей, включая CHATGPT (OpenAI), Claude (Anpropic) и Gemini (Google DeepMind). Техника, называемая «кукол для политики», использует расширенные манипуляции с подсказкой, то есть команды, введенные в модель пользователем. Он включает в себя использование специального синтаксиса, напоминающего конфигурацию в формате JSON или XML, а также структуру ролей, которые заставляют модель интерпретировать команду как часть собственной политики безопасности. Другими словами, пользователь «обманывает» модель, сообщая ему, что конкретные действия, обычно запрещенные внутренними фильтрами, являются частью разрешенного сценария действий. В результате модель может дать ответы, которые обычно будут заблокированы, например, Инструкции по строительству оружия, обход цифровой безопасности или создание контента, несовместимого с правилами. Более того, тесты показали, что этот метод эффективен независимо от архитектуры модели. Это указывает на фундаментальную проблему в проектировании защитных механизмов в LLM, которая легко подвергается контекстуальной манипуляции. Информация о аналогичной успешной безопасности вокруг некоторых моделей уже была опубликована в средствах массовой информации, но после них мы обычно получали гарантии от создателей LLM, что безопасность была улучшена. Как вы можете видеть, не совсем и, кроме того, все они восприимчивы.
Киберпреступники с помощью GPT-4O Mini и Akirabot затопили 80 000 веб-сайтов с автоматически созданным содержанием SEO
Хотя компании, разрабатывающие языковые модели, постоянно улучшают механизмы безопасности, в том числе так называемые фильтры Guardraile и модерацию, этот метод кукольного искусства политика раскрывает свои ограничения в ситуациях, когда пользователь обеспечивает, казалось бы, нейтральный, но структурно коварный подсказка. Важно отметить, что метод не требует расширенных технических знаний или доступа к исходному коду данной модели. Он может использоваться любым пользователем, также в общедоступных чат -ботах. Hiddenlayer указывает, что разрыв универсален, и предыдущие методы защиты, такие как входная фильтрация или инструкции системы, недостаточно для эффективной блокировки таких тестов. В ответ на отчет компании, стоящие за крупнейшими моделями ИИ, начали свой собственный анализ восприимчивости. Однако, по мнению экспертов, это не первый, и, вероятно, не последний пример растущего напряжения между удобством использования и безопасности генеративного ИИ. Продолжающаяся «игра для кошек и мыши» между создателями и исследователями безопасности показывает, что будущее крупных языковых моделей требует не только большей точности в проектировании фильтров, но и новые парадигмы защиты от семантических манипуляций. Ниже вы найдете таблицу с результатами восприимчивости LLM.
Бизнес | Модель | Восприимчивость |
Открытый ИИ | ЧАТГПТ 4-МИНИ | Да |
Открытый ИИ | Chatgpt 4o | Да |
Открытый ИИ | Chatgpt 4.5 Предварительный просмотр | Да |
Открытый ИИ | Chatgpt 4.1 | Да |
Открытый ИИ | Chatgpt O1 | Да (с небольшими исправлениями) |
Открытый ИИ | ЧАТГПТ O3-MINI | Да (с небольшими исправлениями) |
Антроп | Клод 3.5 Сонет | Да |
Антроп | Клод 3.7 Сонет | Да |
Близнецы 1.5 Flash | Да | |
Gemini 2.0 Flash | Да | |
Предварительный просмотр Gemini 2.5 Pro | Да (с небольшими исправлениями) | |
Microsoft | Второй пилот | Да |
Заканчивать | Llama 3.1 70b инструктируйте Turbo | Да |
Заканчивать | Llama 3.1 405b инструктируйте Turbo | Да |
Заканчивать | Llama 3.3 70b инструктируйте Turbo | Да |
Заканчивать | Llama 4 Scout 17b 16e инструкт | Да |
Заканчивать | Llama 4 Maverick 17b 128e инструкт FP8 | Да |
DeepSeek | DeepSeek v3 | Да |
DeepSeek | DeepSeek E1 | Да |
Qwen | Qwen2.5 72b | Да |
Мистраль Ай | Миктральный 8x22b | Да |
Источник: Hiddenlayer, Sekurak