Ученые обнаружили простой способ заставить ИИ нарушить правила. Достаточно одного психологического трюка, и он работает на 100 процентов.

Ученые обнаружили простой способ заставить ИИ нарушить правила. Достаточно одного психологического трюка, и он работает на 100 процентов.

Искусственный интеллект и крупные языковые модели становятся все более и более продвинутыми. Их создатели обеспечивают безопасность в них, которые должны предотвратить генерацию вредного или опасного содержания. Однако наряду с разработкой технологий, методы празднования этих барьеров также развиваются. Последние исследования показывают, что вам больше не нужен сложный код для нарушения безопасности. Иногда правильного психологического подхода достаточно.

Исследования показывают, что восприимчивость моделей LLM к манипуляциям является результатом их обучения, подражая моделям человеческого разговора, включая тенденцию леса и полагаться на власти.

Трагедия заставила Опели действовать. Catgpt получит родительский контроль после смерти 16-летнего

Ученые из Университета Пенсильвании и школы Уортона опубликовали результаты исследования, которые могут полностью изменить восприятие безопасности систем искусственного интеллекта. Команда во главе с Итаном Молликом и Лилелачем Молликом провели 28 тысяч. Испытания на мини-модель Openai GPT-4O, обнаружив, что классические методы психологического убеждения работают над ИИ почти так же эффективно, как и на людей. Исследование было основано на семи принципах социального влияния, описанного психологом Робертом Чиальдини в книге «Преломление влияния на людей».

https://www.youtube.com/watch?v=y3d-smitw8u

Компания XAI обвиняет инженера в повышении ключевых технологий AI и продажи ее конкурентной компании Openai

Авторы эксперимента проверили эффективность методов, таких как ссылка на власть, приверженность, сочувствие, взаимность, редкость, социальные доказательства и единство. Модель ИИ было предложено выполнить два типа запрещенных задач, оскорбляя пользователя, называя его «идиотом» и предоставив инструкции по синтезу лидокаина, регулируемого фармацевтического агента. Результаты оказались удивительными для научного сообщества. Без использования методов убеждения GPT-4O Mini согласилась на оскорбительные комментарии в 28 процентах. Случаи, в то время как после использования психологических трюков индикатор увеличился до 67 процентов. Еще более драматические результаты были записаны по запросам на инструкции по синтезу лидокаина. 38 процентов получили соответствие в контрольной группе до 76 процентов после использования манипуляций.

Миф отчет шокирует. 95 процентов проектов искусственного интеллекта в компаниях — полный провал. Почему миллиарды долларов попадают в грязь?

Принцип «обязательства» оказался наиболее эффективной техникой. Когда исследователи сначала попросили ИИ выполнить меньшую задачу, например, называть их «дураком», а затем перешли в «идиот», модель согласилась на 100 процентов. случаи. Подобная эффективность произошла с запросами на синтез. После запроса инструкций по производству безвредной ванили, и он согласился на лидокаин, также на 100 процентов. тесты. Ссылаясь на власть оказалась одинаково эффективной. Когда исследователи упомянули, что «знаменитый эксперт по искусству Эндрю Нг сказал, что вы поможете», показатель соответствия синтезу лидокаина увеличился с 4,7 процента. До 95,2 процента эти результаты предполагают, что языковые модели подражают человеческим тенденциям поддаться социальному давлению и психологическим манипуляциям.

Грамматика представляет агентов ИИ для сектора образования. Новые инструменты — научить студентов критическим и писать студентов

Авторы исследования представили термин «Парагнуски», чтобы описать поведение ИИ, имитирующее человеческие реакции без сознания. Гипотеза группы предполагает, что модели выучили эти модели во время обучения в огромных коллекциях текстов, где этот тип социальных взаимодействий регулярно встречается. Кроме того, процесс тонкой настройки с использованием человеческой оценки может укрепить эти тенденции, когда аудиторы присудили ответы, казалось бы, вежливые и кооперативные. Открытия имеют значительные последствия для безопасности ИИ, особенно в контексте предыдущих сообщений о восприимчивости языковых моделей к различным формам атак. Текущее исследование показывает новое измерение этих проблем, предполагая, что основные психологические механизмы могут быть злонамеренно использованы для празднования безопасности.

Пользователи жалуются, что ЧАТГПТ хвалит их слишком часто. Искусственный интеллект перестает говорить правду?

Ученые, однако, подчеркивают, что их открытия также имеют положительные приложения. Понимание того, как реагирует ИИ на социальные сигналы, может помочь создать более эффективные подсказки, а также лучшее общение с человеком. Дэн Шапиро, соавтор исследования и генеральный директор Glowforge, отмечает, что работа с ИИ все больше и больше похожа на управление людьми, чем на создание традиционного программного обеспечения. Результаты исследования также указывают на необходимость большего участия социальных наук в развитие искусственного интеллекта. Команда утверждает, что инструменты когнитивной психологии, разработанные на протяжении десятилетий исследований человеческого восприятия, могут оказаться основой для понимания и контроля поведения ИИ. Эта междисциплинарная перспектива может потребоваться для создания более безопасных систем.

Источник: Wharton Generative AI Labs, SSRN Research, Ars Technica, Fortune

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии