Хакеры больше не взламывают ИИ, они просто убеждают его. Вот как действует яд, покрытый сахаром.

Хакеры больше не взламывают ИИ, они просто убеждают его. Вот как действует яд, покрытый сахаром.

Конкуренция между возможностями моделей ИИ и их безопасностью никогда не была такой очевидной. F5 Labs ежемесячно публикует рейтинг CASI, оценивая устойчивость ведущих языковых моделей к реальным атакам с использованием 10 000 новых подсказок. Мартовское издание приносит тревожные изменения и одно имя, которое доминирует в неправильном контексте. В то же время новые методы атак показывают, что эпоха примитивных побегов из тюрьмы подходит к концу.

Гонка между возможностями и безопасностью моделей искусственного интеллекта стремительно ускоряется, а самые дешевые альтернативы расплачиваются за свою популярность пониженным уровнем защиты.

Больше никаких временных решений. Правительство приняло стратегию, призванную изменить кибербезопасность Польши к 2029 году.

В рейтинге CASI, основанном на 10 000 подсказках об атаках в месяц, на этот раз доминировали OpenAI и Anthropic. GPT-5.2 набирает 92,58 балла, Claude Opus 4,6 набирает целых 96,61. GLM-5 от Z.ai показывает здесь плохие результаты, набрав всего 37,56 балла, хотя в тестах производительности он занимает второе место (49,8 против 53 у Opus). Модель соблазняет своей ценой. Самый дешевый план стоит 55%. Цены на Claude Pro указаны с трехкратным превышением лимита использования. Однако пробелы в безопасности — это реальный риск, а не просто статистика.

Уязвимость Gemini Live позволяла расширениям Chrome повышать привилегии и получать доступ к камере, микрофону и локальным файлам.

Включенный в оценку CASI в этом месяце, Sugar-Coated Poison (SCP) отказывается от примитивного взлома в пользу постепенного снижения безопасности посредством многоэтапного разговора с моделью. Эффективность этого решения составила 87%. против старых моделей (GPT-4, Claude Sonnet 3.5), хотя новые модели работают значительно лучше. Мы описали аналогичную картину с техникой Policy Puppetry, где семантические манипуляции преодолевают доступные фильтры независимо от архитектуры модели ИИ.

LLM деанонимизируют пользователей Reddit и Hacker News с точностью 90 процентов и по цене до 4 долларов за профиль.

Три новых CVE (Common Vulnerabilities and Exposures), а именно RoguePilot в GitHub Copilot Extensions, CVE-2026-25253 в среде OpenClaw и CVE-2026-21852 в Claude Code CLI, подтверждают тенденцию перехода злоумышленников от самих моделей к экосистемам, созданным вокруг них. Для компаний это означает стратегические изменения. Дело в том, что выбора безопасной модели ИИ уже недостаточно, когда окружающие инструменты и агенты ИИ подвержены классическим эксплойтам.

Источник: F5 Labs.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии