Большие языковые модели (LLM) демонстрируют способность распознавать личности пользователей социальных сетей, даже если они пользуются анонимностью.
Об этом сообщает Бизнес • Медиа
- LLM позволяют деанонимизировать пользователей соцсетей с высоким уровнем точности.
- В экспериментах точность идентификации достигала 90%, а полнота — 68%.
- Исследователи подчеркивают риски для приватности и безопасности онлайн-коммуникаций.
Эксперименты с искусственным интеллектом: как работает деанонимизация
Группа ученых из Швейцарской высшей технической школы Цюриха (ETH Zurich) и компании Anthropic установила, что современные LLM могут идентифицировать личности пользователей, которые скрываются за псевдонимами в соцсетях. В результатах исследования отмечается, что такие подходы работают на больших массивах данных и позволяют находить связи между аккаунтами на различных платформах.
Аналитики считают, что это ставит под сомнение роль псевдонимности как базового механизма защиты конфиденциальности в интернете. В научной статье подчеркивается, что LLM способны сопоставлять аккаунты и сообщения пользователей путем анализа свободного текста, а также выявлять косвенные признаки, присущие стилю общения.
В экспериментах исследователи достигли показателя «полноты» — то есть доли успешно деанонимизированных пользователей — в 68%. Точность идентификации доходила до 90%.
«В опубликованной научной статье говорится, что ИИ способен сопоставлять аккаунты и сообщения пользователей на различных платформах. При этом модели анализируют свободный текст и косвенные признаки.»
Для тестирования использовали несколько публичных наборов данных. Один из экспериментов заключался в сопоставлении профилей пользователей Hacker News и LinkedIn через межплатформенные ссылки. Перед анализом из сообщений удаляли все прямые идентификаторы, а затем LLM определяли личность по стилю написания и другим параметрам.
Еще одна методика предполагала анализ данных, схожих на набор Netflix Prize: это предпочтения и история активности пользователей. Даже без явных имен эти сведения позволяли точно определить личность человека.
В отдельных тестах ученые работали с активностью пользователей Reddit. Например, анализ обсуждения фильмов в различных тематических сообществах позволял идентифицировать часть пользователей с очень высокой точностью. Если пользователь обсуждал более десяти фильмов, вероятность правильной идентификации возрастала до 90% для почти половины учетных записей и до 99% — для примерно 17% пользователей.
Новые риски для приватности и рекомендации исследователей
Один из авторов исследования, Симон Лерман, подчеркивает, что главная отличительная черта современных технологий — это умение LLM постепенно формировать целостный портрет человека лишь по фрагментам свободного текста. В прошлом для этого были нужны сложные алгоритмы и структурированные базы данных.
Ученые предупреждают, что такие технологии могут сделать массовую деанонимизацию быстрой и доступной, что способствует угрозам доксинга, преследованиям и созданию максимально детализированных маркетинговых профилей пользователей.
Исследователи рекомендуют платформам социальных сетей ограничивать массовый доступ к пользовательским данным через API и отслеживать автоматизированный сбор информации. Разработчикам искусственного интеллекта, по их мнению, следует внедрять механизмы, которые исключают использование моделей для целенаправленной деанонимизации.
Ученые предостерегают: без соответствующих ограничений подобные инструменты могут стать оружием государств для выявления онлайн-критиков, а компании — использовать их для сверхточной рекламы. Злоумышленники же могут применить эти технологии для масштабных мошеннических схем.