Хакеры больше не взламывают ИИ, они просто убеждают его. Вот как действует яд, покрытый сахаром.
Конкуренция между возможностями моделей ИИ и их безопасностью никогда не была такой очевидной. F5 Labs ежемесячно публикует рейтинг CASI, оценивая устойчивость ведущих языковых моделей к реальным атакам с использованием 10 000 новых подсказок. Мартовское издание приносит тревожные изменения и одно имя, которое доминирует в неправильном контексте. В то же время новые методы атак показывают, что эпоха примитивных побегов из тюрьмы подходит к концу.
Гонка между возможностями и безопасностью моделей искусственного интеллекта стремительно ускоряется, а самые дешевые альтернативы расплачиваются за свою популярность пониженным уровнем защиты.
Больше никаких временных решений. Правительство приняло стратегию, призванную изменить кибербезопасность Польши к 2029 году.
В рейтинге CASI, основанном на 10 000 подсказках об атаках в месяц, на этот раз доминировали OpenAI и Anthropic. GPT-5.2 набирает 92,58 балла, Claude Opus 4,6 набирает целых 96,61. GLM-5 от Z.ai показывает здесь плохие результаты, набрав всего 37,56 балла, хотя в тестах производительности он занимает второе место (49,8 против 53 у Opus). Модель соблазняет своей ценой. Самый дешевый план стоит 55%. Цены на Claude Pro указаны с трехкратным превышением лимита использования. Однако пробелы в безопасности — это реальный риск, а не просто статистика.
Уязвимость Gemini Live позволяла расширениям Chrome повышать привилегии и получать доступ к камере, микрофону и локальным файлам.
Включенный в оценку CASI в этом месяце, Sugar-Coated Poison (SCP) отказывается от примитивного взлома в пользу постепенного снижения безопасности посредством многоэтапного разговора с моделью. Эффективность этого решения составила 87%. против старых моделей (GPT-4, Claude Sonnet 3.5), хотя новые модели работают значительно лучше. Мы описали аналогичную картину с техникой Policy Puppetry, где семантические манипуляции преодолевают доступные фильтры независимо от архитектуры модели ИИ.
LLM деанонимизируют пользователей Reddit и Hacker News с точностью 90 процентов и по цене до 4 долларов за профиль.
Три новых CVE (Common Vulnerabilities and Exposures), а именно RoguePilot в GitHub Copilot Extensions, CVE-2026-25253 в среде OpenClaw и CVE-2026-21852 в Claude Code CLI, подтверждают тенденцию перехода злоумышленников от самих моделей к экосистемам, созданным вокруг них. Для компаний это означает стратегические изменения. Дело в том, что выбора безопасной модели ИИ уже недостаточно, когда окружающие инструменты и агенты ИИ подвержены классическим эксплойтам.
Источник: F5 Labs.