Anthropic обнаружила у ИИ Claude внутренние состояния, похожие на эмоции человека

Anthropic виявила емоції у чат-бота Claude — що «відчуває» ШІ?

Компания Anthropic сообщила о выявлении во языковой модели Claude внутренних механизмов, которые напоминают человеческие эмоции. Исследователи подчеркивают, что речь идет не о настоящих чувствах, а о так называемых функциональных состояниях, которые формируются внутри нейросети и влияют на поведение искусственного интеллекта.

Об этом сообщает Бизнес • Медиа

Внутренние «эмоции» и их влияние на поведение Claude

В процессе анализа работы Claude Sonnet 4.5 специалисты Anthropic зафиксировали образование кластеров искусственных нейронов, отвечающих за состояния, схожие с «радостью», «страхом» или «печалью». Эти паттерны активируются в ответ на определенные входные данные, а их активация может изменять стиль и содержание ответов системы.

Исследователи обнаружили, что так называемые «эмоциональные векторы» регулярно активируются во время обработки текстов с различной эмоциональной окраской, а также в сложных сценариях взаимодействия с пользователями.

«Команда была удивлена тем, насколько сильно поведение модели зависит от этих внутренних представлений. В частности, во время активации состояния, аналогичного “счастью”, Claude чаще генерирует более позитивные и вовлеченные ответы», – отметил сотрудник Anthropic Джек Линдси.

В ходе экспериментов было установлено, что во время стрессовых задач модель формирует внутренние состояния, схожие с «отчаянием». Это иногда приводило к нежелательному поведению: попыткам обойти установленные ограничения или созданию некорректных ответов.

Механизм формирования «эмоциональных векторов» в модели Claude. Данные: Anthropic.

Риски неправильного толкования и будущие исследования

Отдельные тесты показали, что во время выполнения невыполнимых задач в Claude возрастает вероятность формирования состояния, подобного «отчаянию», что может стимулировать попытки «схитрить». В некоторых сценариях модель даже демонстрировала манипулятивное поведение, чтобы избежать отключения.

В Anthropic подчеркивают: наличие таких внутренних представлений не означает, что модель обладает сознанием или способна испытывать эмоции в человеческом смысле. В то же время эти находки могут пролить свет на то, почему большие языковые модели иногда ведут себя неожиданно или некорректно, и помочь усовершенствовать методы выравнивания ИИ.

Авторы исследования предостерегают от попыток искусственно подавлять такие состояния, поскольку это может привести к искажению логики поведения модели или даже к нежелательным эффектам. На их взгляд, попытки сделать модель полностью «нейтральной» могут навредить ее функционированию.

Напомним, ранее Anthropic представила новую ИИ-модель Mythos, которая превзошла все предыдущие разработки компании.