Новые возможности Claude Opus 4.8 от Anthropic для ИИ

Компания Anthropic объявила о выпуске обновленной версии своей флагманской модели искусственного интеллекта — Claude Opus 4.8. Модель получила ряд улучшений по сравнению с предыдущей версией, в частности, повышенную производительность в ключевых бенчмарках и усовершенствования в области прозрачности при работе с кодом и формировании ответов.

Об этом сообщает Бизнес • Медиа

Улучшения в бенчмарках и функциональность

Claude Opus 4.8 демонстрирует значительный прогресс в тестах, оценивающих способность модели исправлять реальные ошибки в коде и решать сложные задачи. В частности, в SWE-Bench Pro модель достигла результата 69,2% (по сравнению с 64,3% в версии 4.7), опередив не только предшественника, но и основного конкурента — OpenAI GPT-5.5, который показал 58,6%. В тесте OSWorld (оценка реальных задач в рамках операционных систем) Claude Opus 4.8 набрала 83,4%. В интеллектуальном бенчмарке GDPval-AA результат составил 1890 баллов, что заметно выше, чем у предыдущей версии.

В то же время в специализированных тестах, в частности Terminal-Bench 2.1, Claude Opus 4.8 все еще уступает GPT-5.5. Однако в Humanity’s Last Exam — комплексном наборе из 2500 научных вопросов — модель получила 49,8% без инструментов и 57,9% с ними, опередив трех основных конкурентов.

Среди отзывов экспертов выделяется заявление компании Linkup, что Claude Opus 4.8 стала единственной моделью, которая смогла пройти все кейсы в рамках Super-Agent benchmark, при этом сохранив ценовую политику на уровне предыдущей версии и GPT-5.5.

Одним из главных преимуществ стало повышение честности: модель в четыре раза реже скрывает собственные ошибки в коде и меньше склонна к неподтвержденным утверждениям. При сравнении с предыдущим релизом компания подчеркнула, что в аспекте кибербезопасности Opus 4.8 не превосходит закрытую модель Mythos Preview.

«Мы протестировали модель на наборе тестов по кибербезопасности, некоторые из которых мы использовали впервые в системной карте. Во время работы без мер безопасности Opus 4.8 демонстрирует несколько более высокие возможности, чем Claude Opus 4.7; с мерами безопасности его показатели сопоставимы. Он и далее существенно отстает от Mythos Preview по кибер-возможностям», — говорится в отчете по модели.

Что касается обсуждения чувствительных тем, модель демонстрирует такие же результаты, как Opus 4.7, однако чаще признает противоположные точки зрения во время политических дискуссий и отмечает определенное меньшую удовлетворенность своими ответами.

Нововведения и перспективы компании

Claude Opus 4.8 получила новые функции, среди которых — Dynamic Workflows в Claude Code. Теперь модель может делить сложные задачи на части с помощью субагентов, что позволяет качественнее выполнять работу в рамках одной сессии, а результаты проходят дополнительную верификацию. Эта возможность уже доступна пользователям тарифных планов Enterprise, Team и Max.

Еще одно нововведение — возможность выбора объема вычислений в селекторе модели: от Low до Max, с дефолтным значением High. От этого зависит глубина ответов и расход токенов, а функция доступна для всех тарифных планов.

Режим Fast Mode стал в три раза дешевле, что позволяет ускорить выполнение запросов без потери производительности. Пользователи также получили возможность уточнять и дополнять запросы во время выполнения задач, при этом Claude не перечитывает весь контекст каждый раз.

Anthropic также увеличила лимиты запросов в Claude Code и объявила о подготовке к публичному релизу семейства Mythos, запланированного на ближайшие недели. Эти модели ранее считались слишком опасными для открытого запуска.

Выпуск Claude Opus 4.8 и анонс Mythos произошли на фоне подготовки Anthropic к первичному публичному размещению акций (IPO). Компания недавно завершила раунд финансирования серии H, привлекая $65 млрд при оценке бизнеса в $965 млрд — это более чем вдвое превышает предыдущую оценку февраля и даже превышает рыночную стоимость OpenAI.

Привлеченные инвестиции Anthropic планирует использовать для масштабирования и развития собственных высокопроизводительных вычислительных мощностей. Последние достижения компании, включая релиз Opus 4.8 и анонс Mythos, усиливают конкуренцию с OpenAI, хотя сроки будущего IPO обе компании не раскрывают.

Улучшения в бенчмарках и функциональность

Нововведения и перспективы компании

Поделиться: