Claude Opus 4.8: нові можливості та покращення AI

Компанія Anthropic оголосила про випуск оновленої версії своєї флагманської моделі штучного інтелекту — Claude Opus 4.8. Модель отримала низку поліпшень у порівнянні з попередньою версією, зокрема, підвищену продуктивність у ключових бенчмарках і вдосконалення у сфері прозорості під час роботи з кодом та формуванням відповідей.

Про це розповідає Бізнес • Медіа

Покращення у бенчмарках і функціональність

Claude Opus 4.8 демонструє значний прогрес у тестах, що оцінюють здатність моделі виправляти реальні помилки в коді й розв’язувати складні завдання. Зокрема, у SWE-Bench Pro модель досягла результату 69,2% (в порівнянні з 64,3% у версії 4.7), випередивши не лише попередника, а й основного конкурента — OpenAI GPT-5.5, який показав 58,6%. У тесті OSWorld (оцінка реальних завдань у межах операційних систем) Claude Opus 4.8 набрала 83,4%. В інтелектуальному бенчмарку GDPval-AA результат склав 1890 балів, що помітно вище ніж у попередньої версії.

Водночас у спеціалізованих тестах, зокрема Terminal-Bench 2.1, Claude Opus 4.8 все ще поступається GPT-5.5. Проте в Humanity’s Last Exam — комплексному наборі з 2500 наукових питань — модель отримала 49,8% без інструментів і 57,9% із ними, випередивши трьох основних конкурентів.

Серед відгуків експертів виділяється заявка компанії Linkup, що Claude Opus 4.8 стала єдиною моделлю, яка змогла пройти всі кейси в межах Super-Agent benchmark, при цьому зберігаючи цінову політику на рівні попередньої версії та GPT-5.5.

Однією з головних переваг стало підвищення чесності: модель у чотири рази рідше приховує власні помилки в коді та менше схильна до непідтверджених тверджень. При порівнянні з попереднім релізом компанія підкреслила, що в аспекті кібербезпеки Opus 4.8 не перевершує закриту модель Mythos Preview.

«Ми протестували модель на наборі тестів із кібербезпеки, деякі з яких ми використали вперше в системній карті. Під час роботи без заходів безпеки Opus 4.8 демонструє дещо вищі можливості, ніж Claude Opus 4.7; із заходами безпеки його показники зіставні. Він і надалі суттєво відстає від Mythos Preview за кіберможливостями», — йдеться у звіті щодо моделі.

Щодо обговорення чутливих тем, модель демонструє такі ж результати, як Opus 4.7, однак частіше визнає протилежні точки зору під час політичних дискусій та відзначає певну меншу задоволеність своїми відповідями.

Нововведення та перспективи компанії

Claude Opus 4.8 отримала нові функції, серед яких — Dynamic Workflows у Claude Code. Тепер модель може ділити складні завдання на частини за допомогою субагентів, що дозволяє якісніше виконувати роботу в рамках однієї сесії, а результати проходять додаткову верифікацію. Ця можливість вже доступна користувачам тарифних планів Enterprise, Team і Max.

Ще одне нововведення — можливість вибору обсягу обчислень у селекторі моделі: від Low до Max, із дефолтним значенням High. Від цього залежить глибина відповідей та витрата токенів, а функція доступна для всіх тарифних планів.

Режим Fast Mode став утричі дешевшим, що дозволяє прискорити виконання запитів без втрати продуктивності. Користувачі також отримали змогу уточнювати й доповнювати запити під час виконання завдань, при цьому Claude не перечитує весь контекст щоразу.

Anthropic також збільшила ліміти запитів у Claude Code та оголосила про підготовку до публічного релізу сімейства Mythos, запланованого на найближчі тижні. Ці моделі раніше вважалися надто небезпечними для відкритого запуску.

Випуск Claude Opus 4.8 і анонс Mythos відбулися на тлі підготовки Anthropic до первинного публічного розміщення акцій (IPO). Компанія нещодавно завершила раунд фінансування серії H, залучивши $65 млрд при оцінці бізнесу у $965 млрд — це більше ніж удвічі перевищує попередню оцінку лютого та навіть перевищує ринкову вартість OpenAI.

Залучені інвестиції Anthropic планує використати для масштабування та розвитку власних високопродуктивних обчислювальних потужностей. Останні досягнення компанії, включно з релізом Opus 4.8 та анонсом Mythos, підсилюють конкуренцію з OpenAI, хоча строки майбутнього IPO обидві компанії не розкривають.

Покращення у бенчмарках і функціональність

Нововведення та перспективи компанії

Поділитись: