Великі мовні моделі (LLM) демонструють здатність розпізнавати особистості користувачів соціальних мереж, навіть якщо ті користуються анонімністю.
Про це розповідає Бізнес • Медіа
- LLM дозволяють деанонімізувати користувачів соцмереж із високим рівнем точності.
- В експериментах точність ідентифікації досягала 90%, а повнота — 68%.
- Дослідники наголошують на ризиках для приватності та безпеки онлайн-комунікацій.
Експерименти зі штучним інтелектом: як працює деанонімізація
Група науковців зі Швейцарської вищої технічної школи Цюриха (ETH Zurich) та компанії Anthropic встановила, що сучасні LLM можуть ідентифікувати особистості користувачів, які приховуються за псевдонімами у соцмережах. У результатах дослідження зазначається, що такі підходи працюють на великих масивах даних і дають змогу знаходити зв’язки між акаунтами на різних платформах.
Аналітики вважають, що це ставить під питання роль псевдонімності як базового механізму захисту конфіденційності в інтернеті. У науковій статті підкреслюється, що LLM здатні зіставляти акаунти та повідомлення користувачів шляхом аналізу вільного тексту, а також виявляти непрямі ознаки, притаманні стилю спілкування.
В експериментах дослідники досягли показника «повноти» — тобто частки успішно деанонімізованих користувачів — у 68%. Точність ідентифікації доходила до 90%.
“В опублікованій науковій статті йдеться, що ШІ здатен зіставляти акаунти та повідомлення користувачів на різних платформах. При цьому моделі аналізують вільний текст і непрямі ознаки.”
Для тестування використовували кілька публічних наборів даних. Один із експериментів полягав у зіставленні профілів користувачів Hacker News і LinkedIn через міжплатформні посилання. Перед аналізом з повідомлень видаляли всі прямі ідентифікатори, а далі LLM визначали особистість за стилем написання та іншими параметрами.
Ще одна методика передбачала аналіз даних, схожих на набір Netflix Prize: це вподобання та історія активності користувачів. Навіть без явних імен ці відомості дозволяли точно визначити особу людини.
У окремих тестах вчені працювали з активністю користувачів Reddit. Наприклад, аналіз обговорення фільмів у різних тематичних спільнотах дозволяв ідентифікувати частину користувачів із дуже високою точністю. Якщо користувач обговорював понад десять фільмів, ймовірність правильної ідентифікації зростала до 90% для майже половини облікових записів і до 99% — для приблизно 17% користувачів.
Нові ризики для приватності та рекомендації дослідників
Один із авторів дослідження, Саймон Лерман, підкреслює, що головна відмінність сучасних технологій — це вміння LLM поступово формувати цілісний портрет людини лише за фрагментами вільного тексту. У минулому для цього були потрібні складні алгоритми та структуровані бази даних.
Науковці попереджають, що такі технології можуть зробити масову деанонімізацію швидкою та доступною, що сприяє загрозам доксингу, переслідуванням і створенню максимально деталізованих маркетингових профілів користувачів.
Вчені рекомендують платформам соціальних мереж обмежувати масовий доступ до користувацьких даних через API та відстежувати автоматизований збір інформації. Розробникам штучного інтелекту, на їхню думку, слід впроваджувати механізми, що унеможливлюють використання моделей для цілеспрямованої деанонімізації.
Дослідники застерігають: без відповідних обмежень подібні інструменти можуть стати зброєю держав для виявлення онлайн-критиків, а компанії — використовувати їх для надточної реклами. Зловмисники ж можуть застосувати ці технології для масштабних шахрайських схем.