OpenAI представила EVMbench для тестування ШІ-агентів у сфері безпеки Ethereum

OpenAI запустила бенчмарк для ШІ-агентів із пошуку вразливостей в екосистемі Ethereum

OpenAI розробила новий бенчмарк EVMbench, спрямований на оцінювання ефективності штучного інтелекту при виявленні вразливостей у смартконтрактах екосистеми Ethereum. Інструмент створено у партнерстві з інвестиційною компанією Paradigm та фірмою з кібербезпеки OtterSec.

Про це розповідає Бізнес • Медіа

Особливості платформи EVMbench та результати перших тестів

Основою для бенчмарку стали 120 вразливостей, які було зібрано з 40 аудитів смартконтрактів. Переважна більшість із цих вразливостей була знайдена у межах конкурсів з відкритим вихідним кодом. За підсумками тестування найкращий результат продемонструвала модель Claude Opus 4.6, отримавши «винагороду за виявлення» у розмірі $37 824.

Розробники відзначають, що запуск EVMbench відбувся на фоні зростання фінансових загроз. Лише у 2025 році зловмисники викрали криптовалюти на суму понад $4 млрд, що перевищує показники попереднього року.

Порівняння ШІ-моделей за виявленням вразливостей у смартконтрактах Ethereum. Дані: OpenAI.
Порівняння ШІ-моделей за виявленням вразливостей у смартконтрактах Ethereum. Дані: OpenAI.

Важливість ШІ для безпеки та майбутнє індустрії

У компанії підкреслюють, що із зростанням застосування ШІ-агентів стає дедалі важливішим вимірювати їхню продуктивність у реальних економічних умовах, де на кону стоять значні кошти. EVMbench дозволяє оцінити здатність ШІ аналізувати, писати та виконувати код у критично важливих середовищах.

«Смартконтракти регулярно забезпечують безпеку криптоактивів із відкритим вихідним кодом на суму понад $100 млрд. У міру того як ШІ-агенти вдосконалюються в читанні, написанні та виконанні коду, стає дедалі важливішим вимірювати їхні можливості в економічно значущих середовищах», — заявили в компанії.

OpenAI очікує, що використання ШІ для захисту смартконтрактів сприятиме зниженню ризиків у криптоіндустрії. Зокрема, компанія прогнозує зростання платежів у стейблкоїнах, які здійснюватимуть ШІ-агенти, що підвищить потребу у безпеці таких систем. Розробники наголошують, що потенціал штучного інтелекту має бути використаний для протидії кіберзлочинності та посилення захисту розгорнутих контрактів.

Завдяки EVMbench індустрія отримує можливість відслідковувати прогрес у сфері виявлення і ліквідації вразливостей, що сприятиме підвищенню загального рівня безпеки у сфері криптовалют. Варто також згадати, що раніше згенерований Claude код став причиною злому протоколу Moonwell на майже $2 млн.