Эксперты предупреждают, что одна команда может взять под контроль ИИ. Политический кукол — это слабость всех основных моделей LLM

Эксперты предупреждают, что одна команда может взять под контроль ИИ. Политический кукол - это слабость всех основных моделей LLM

Недавно эксперты по безопасности искусственного интеллекта представили результаты исследований, которые проливают новый свет на путь крупных языковых моделей. Оказывается, что некоторые механизмы, ответственные за контроль сгенерированного контента, могут быть подвержены неожиданным манипуляциям. Это открытие может быть важным для будущего разработки решений на основе ИИ и их использования в различных областях.

Это обнаружение показывает, что используемые в настоящее время гарантии LLM недостаточны, и злоумышленники могут приблизиться их банально.

Шесть лет в тайне. Злоупотребленный код в расширениях Magento выявляет серьезные пробелы в области безопасности электронной коммерции

В недавно опубликованном отчете эксперты из Hiddenlayer раскрыли существование серьезного разрыва в безопасности, общее для большинства крупных языковых моделей, включая CHATGPT (OpenAI), Claude (Anpropic) и Gemini (Google DeepMind). Техника, называемая «кукол для политики», использует расширенные манипуляции с подсказкой, то есть команды, введенные в модель пользователем. Он включает в себя использование специального синтаксиса, напоминающего конфигурацию в формате JSON или XML, а также структуру ролей, которые заставляют модель интерпретировать команду как часть собственной политики безопасности. Другими словами, пользователь «обманывает» модель, сообщая ему, что конкретные действия, обычно запрещенные внутренними фильтрами, являются частью разрешенного сценария действий. В результате модель может дать ответы, которые обычно будут заблокированы, например, Инструкции по строительству оружия, обход цифровой безопасности или создание контента, несовместимого с правилами. Более того, тесты показали, что этот метод эффективен независимо от архитектуры модели. Это указывает на фундаментальную проблему в проектировании защитных механизмов в LLM, которая легко подвергается контекстуальной манипуляции. Информация о аналогичной успешной безопасности вокруг некоторых моделей уже была опубликована в средствах массовой информации, но после них мы обычно получали гарантии от создателей LLM, что безопасность была улучшена. Как вы можете видеть, не совсем и, кроме того, все они восприимчивы.

Киберпреступники с помощью GPT-4O Mini и Akirabot затопили 80 000 веб-сайтов с автоматически созданным содержанием SEO

Хотя компании, разрабатывающие языковые модели, постоянно улучшают механизмы безопасности, в том числе так называемые фильтры Guardraile и модерацию, этот метод кукольного искусства политика раскрывает свои ограничения в ситуациях, когда пользователь обеспечивает, казалось бы, нейтральный, но структурно коварный подсказка. Важно отметить, что метод не требует расширенных технических знаний или доступа к исходному коду данной модели. Он может использоваться любым пользователем, также в общедоступных чат -ботах. Hiddenlayer указывает, что разрыв универсален, и предыдущие методы защиты, такие как входная фильтрация или инструкции системы, недостаточно для эффективной блокировки таких тестов. В ответ на отчет компании, стоящие за крупнейшими моделями ИИ, начали свой собственный анализ восприимчивости. Однако, по мнению экспертов, это не первый, и, вероятно, не последний пример растущего напряжения между удобством использования и безопасности генеративного ИИ. Продолжающаяся «игра для кошек и мыши» между создателями и исследователями безопасности показывает, что будущее крупных языковых моделей требует не только большей точности в проектировании фильтров, но и новые парадигмы защиты от семантических манипуляций. Ниже вы найдете таблицу с результатами восприимчивости LLM.

Бизнес Модель Восприимчивость
Открытый ИИ ЧАТГПТ 4-МИНИ Да
Открытый ИИ Chatgpt 4o Да
Открытый ИИ Chatgpt 4.5 Предварительный просмотр Да
Открытый ИИ Chatgpt 4.1 Да
Открытый ИИ Chatgpt O1 Да (с небольшими исправлениями)
Открытый ИИ ЧАТГПТ O3-MINI Да (с небольшими исправлениями)
Антроп Клод 3.5 Сонет Да
Антроп Клод 3.7 Сонет Да
Google Близнецы 1.5 Flash Да
Google Gemini 2.0 Flash Да
Google Предварительный просмотр Gemini 2.5 Pro Да (с небольшими исправлениями)
Microsoft Второй пилот Да
Заканчивать Llama 3.1 70b инструктируйте Turbo Да
Заканчивать Llama 3.1 405b инструктируйте Turbo Да
Заканчивать Llama 3.3 70b инструктируйте Turbo Да
Заканчивать Llama 4 Scout 17b 16e инструкт Да
Заканчивать Llama 4 Maverick 17b 128e инструкт FP8 Да
DeepSeek DeepSeek v3 Да
DeepSeek DeepSeek E1 Да
Qwen Qwen2.5 72b Да
Мистраль Ай Миктральный 8x22b Да

Источник: Hiddenlayer, Sekurak

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии