Учёные из Аризоны назвали способность ИИ к рассуждениям иллюзией и предупредили о рисках

ШІ-модель від Google за 48 годин вирішила «проблему десятиліття» супербактерій

Группа исследователей из Университета Аризоны поставила под сомнение реальные возможности современных моделей искусственного интеллекта (ИИ) в области логических рассуждений. Ученые утверждают, что распространенные подходы, в частности так называемая «цепочка мыслей» (Chain-of-Thought, CoT), не обеспечивают истинной способности к обобщающему мышлению.

Об этом сообщает Бизнес • Медиа

Эксперимент и его результаты

Для проверки эффективности ИИ-моделей было создано тестовое окружение DataAlchemy. В нем небольшие языковые модели обучались на простых текстовых преобразованиях, например, ROT-шифровании или циклических сдвигах. После этого системы просили применять приобретенные навыки в новых, ранее не встречавшихся комбинациях.

Как показали результаты, при встрече с незнакомыми комбинациями модели часто отвечали либо правильно, но с ошибочной аргументацией, либо наоборот – демонстрировали верные рассуждения, однако давали неправильный итог. Даже незначительные изменения в формате задания, например, в длине текста или символах, приводили к резкому падению точности.

Ограничения и угрозы использования

Исследователи отметили, что добавление небольшого количества релевантных данных во время контролируемого дообучения (SFT) действительно улучшает результаты. В то же время это не решает основную проблему — отсутствия у LLM способности к абстрактному мышлению. Ученые считают этот подход лишь временным решением, а не фундаментальным изменением.

«Цепочки мыслей в нынешнем виде являются структурированным сопоставлением с образцом, которое ломается при малейшем изменении условий. При этом способность модели генерировать связный, но ошибочный текст создает иллюзию надежности, способную ввести в заблуждение пользователей».

Учёные убеждены, что существующие бенчмарки и тесты должны больше фокусироваться на задачах, которые выходят за пределы учебных данных, чтобы эффективнее выявлять слабые стороны таких систем. Особую опасность представляет восприятие результатов CoT как эквивалентных человеческому мышлению в важных сферах — медицине, финансах и праве. Для будущих моделей, по словам авторов исследования, ключевым заданием должно стать преодоление простого распознавания шаблонов и развитие истинных рассуждательных навыков.

Ранее сообщалось, что Марк Цукерберг объявил о планах Meta по созданию «персонального суперинтеллекта».