LLM деанонимизируют пользователей Reddit и Hacker News с точностью 90 процентов и по цене до 4 долларов за профиль.

Прозвище кажется надежным щитом. Вы можете публиковать сообщения на Reddit, Hacker News или отраслевых форумах под вымышленным ником, не раскрывая своего имени, места жительства или профессии. Однако исследователи уже много лет предупреждают, что онлайн-анонимность во многом является иллюзией, а последняя работа ученых из ETH Zurich и Anthropic предполагает, что эта иллюзия начинает трещать по швам. И совершенно по-новому.

Псевдонимность в Интернете больше не является практическим препятствием для конфиденциальности. Большие языковые модели могут идентифицировать пользователей по бесплатному тексту быстрее и дешевле, чем люди-исследователи.

Российским хакерам понадобилось всего 48 часов. Microsoft не успела пропатчить Office, а Польша была в пределах досягаемости

Исследование, проведенное исследователями из ETH Zurich, MATS Research и Anthropic, описывает четырехэтапный конвейер атаки: извлечение, поиск, обоснование и калибровка. На первом этапе языковая модель анализирует сообщения пользователя и строит на их основе структурированный профиль. Он включает род занятий, примерное местоположение, интересы, стиль письма и даже мелкие детали, такие как использование британской орфографии или конкретной библиотеки программирования. Система преобразует информацию в математические представления смысла и ищет в базе данных те элементы, которые наиболее близки им по смыслу, а не только слова.

Ваша гостевая сеть не защищает вас так сильно, как вы думаете. AirSnitch обходит шифрование Wi-Fi на устройствах Netgear, Cisco и ASUS

Более мощная модель проверяет совпадения и исключает ложные срабатывания, а на заключительном этапе оценивается собственная уверенность и может отказаться отвечать, когда доказательств слишком мало. Самое важное отличие от классических методов, таких как знаменитая атака Нараянана и Шматикова на Netflix Prize 2008 года, заключается в том, что они требовали структурированных данных с согласованной структурой. Здесь нужен только сырой, неструктурированный текст с форумов, такой, который все ежедневно оставляют в Интернете.

Конфигурационный файл в репозитории как оружие. Check Point раскрывает, как Claude Code можно превратить в инструмент атаки

Результаты убедительны и говорят сами за себя. На Hacker News агент правильно сопоставил 226 из 338 пользователей с их профилями LinkedIn с точностью 90 процентов, выполнив поиск в пуле из почти 89 000 кандидатов, классический метод достиг результата, близкого к нулю в том же тесте. На Reddit почти в половине случаев выявлялись пользователи, которые обсуждали более 10 видеороликов в нескольких сообществах одновременно. Важно отметить, что чем больше данных пользователь оставляет в сети, тем эффективнее атака. Больше постов — более уникальный отпечаток пальца. Стоимость анализа одного профиля составляла от 1 до 4 долларов, а весь эксперимент стоил менее 2000 долларов.

Корейская налоговая служба похвасталась конфискацией криптовалюты и выдала пароль вору. Миллионы исчезли за считанные часы

Это революционное изменение масштаба угрозы. Авторитарные правительства могут преследовать диссидентов и журналистов, рекламные компании, создавать незаконные потребительские профили, а киберпреступники могут готовить точные атаки с помощью социальной инженерии. Мы уже описывали платформу Spy Pet, которая за несколько долларов в криптовалюте раскрыла сообщения 300 миллионов пользователей Discord. Языковые модели еще больше снижают эту планку и, в отличие от Spy Pet, делают это полностью автоматически, без какой-либо шпионской инфраструктуры.

Источник: arXiv, Саймон Лермен.