ИИ-модели могут идентифицировать пользователей соцсетей с точностью до 90%

Кінець анонімності? ШІ-моделі навчилися розкривати особистості користувачів соцмереж

Большие языковые модели (LLM) демонстрируют способность распознавать личности пользователей социальных сетей, даже если они пользуются анонимностью.

Об этом сообщает Бизнес • Медиа

  • LLM позволяют деанонимизировать пользователей соцсетей с высоким уровнем точности.
  • В экспериментах точность идентификации достигала 90%, а полнота — 68%.
  • Исследователи подчеркивают риски для приватности и безопасности онлайн-коммуникаций.

Эксперименты с искусственным интеллектом: как работает деанонимизация

Группа ученых из Швейцарской высшей технической школы Цюриха (ETH Zurich) и компании Anthropic установила, что современные LLM могут идентифицировать личности пользователей, которые скрываются за псевдонимами в соцсетях. В результатах исследования отмечается, что такие подходы работают на больших массивах данных и позволяют находить связи между аккаунтами на различных платформах.

Аналитики считают, что это ставит под сомнение роль псевдонимности как базового механизма защиты конфиденциальности в интернете. В научной статье подчеркивается, что LLM способны сопоставлять аккаунты и сообщения пользователей путем анализа свободного текста, а также выявлять косвенные признаки, присущие стилю общения.

В экспериментах исследователи достигли показателя «полноты» — то есть доли успешно деанонимизированных пользователей — в 68%. Точность идентификации доходила до 90%.

«В опубликованной научной статье говорится, что ИИ способен сопоставлять аккаунты и сообщения пользователей на различных платформах. При этом модели анализируют свободный текст и косвенные признаки.»

Для тестирования использовали несколько публичных наборов данных. Один из экспериментов заключался в сопоставлении профилей пользователей Hacker News и LinkedIn через межплатформенные ссылки. Перед анализом из сообщений удаляли все прямые идентификаторы, а затем LLM определяли личность по стилю написания и другим параметрам.

Еще одна методика предполагала анализ данных, схожих на набор Netflix Prize: это предпочтения и история активности пользователей. Даже без явных имен эти сведения позволяли точно определить личность человека.

В отдельных тестах ученые работали с активностью пользователей Reddit. Например, анализ обсуждения фильмов в различных тематических сообществах позволял идентифицировать часть пользователей с очень высокой точностью. Если пользователь обсуждал более десяти фильмов, вероятность правильной идентификации возрастала до 90% для почти половины учетных записей и до 99% — для примерно 17% пользователей.

Новые риски для приватности и рекомендации исследователей

Один из авторов исследования, Симон Лерман, подчеркивает, что главная отличительная черта современных технологий — это умение LLM постепенно формировать целостный портрет человека лишь по фрагментам свободного текста. В прошлом для этого были нужны сложные алгоритмы и структурированные базы данных.

Ученые предупреждают, что такие технологии могут сделать массовую деанонимизацию быстрой и доступной, что способствует угрозам доксинга, преследованиям и созданию максимально детализированных маркетинговых профилей пользователей.

Исследователи рекомендуют платформам социальных сетей ограничивать массовый доступ к пользовательским данным через API и отслеживать автоматизированный сбор информации. Разработчикам искусственного интеллекта, по их мнению, следует внедрять механизмы, которые исключают использование моделей для целенаправленной деанонимизации.

Ученые предостерегают: без соответствующих ограничений подобные инструменты могут стать оружием государств для выявления онлайн-критиков, а компании — использовать их для сверхточной рекламы. Злоумышленники же могут применить эти технологии для масштабных мошеннических схем.