Группа исследователей из Университета Аризоны поставила под сомнение реальные возможности современных моделей искусственного интеллекта (ИИ) в области логических рассуждений. Ученые утверждают, что распространенные подходы, в частности так называемая «цепочка мыслей» (Chain-of-Thought, CoT), не обеспечивают истинной способности к обобщающему мышлению.
Об этом сообщает Бизнес • Медиа
Эксперимент и его результаты
Для проверки эффективности ИИ-моделей было создано тестовое окружение DataAlchemy. В нем небольшие языковые модели обучались на простых текстовых преобразованиях, например, ROT-шифровании или циклических сдвигах. После этого системы просили применять приобретенные навыки в новых, ранее не встречавшихся комбинациях.
Как показали результаты, при встрече с незнакомыми комбинациями модели часто отвечали либо правильно, но с ошибочной аргументацией, либо наоборот – демонстрировали верные рассуждения, однако давали неправильный итог. Даже незначительные изменения в формате задания, например, в длине текста или символах, приводили к резкому падению точности.
Ограничения и угрозы использования
Исследователи отметили, что добавление небольшого количества релевантных данных во время контролируемого дообучения (SFT) действительно улучшает результаты. В то же время это не решает основную проблему — отсутствия у LLM способности к абстрактному мышлению. Ученые считают этот подход лишь временным решением, а не фундаментальным изменением.
«Цепочки мыслей в нынешнем виде являются структурированным сопоставлением с образцом, которое ломается при малейшем изменении условий. При этом способность модели генерировать связный, но ошибочный текст создает иллюзию надежности, способную ввести в заблуждение пользователей».
Учёные убеждены, что существующие бенчмарки и тесты должны больше фокусироваться на задачах, которые выходят за пределы учебных данных, чтобы эффективнее выявлять слабые стороны таких систем. Особую опасность представляет восприятие результатов CoT как эквивалентных человеческому мышлению в важных сферах — медицине, финансах и праве. Для будущих моделей, по словам авторов исследования, ключевым заданием должно стать преодоление простого распознавания шаблонов и развитие истинных рассуждательных навыков.
Ранее сообщалось, что Марк Цукерберг объявил о планах Meta по созданию «персонального суперинтеллекта».