ШІ-інструменти сповільнюють розробку open source ПЗ на 19% – дослідження

Databricks придбає стартап Neon за $1 млрд для посилення позицій на ринку ШІ-агентів

Штучний інтелект не завжди сприяє підвищенню ефективності програмістів, особливо при роботі з проєктами з відкритим кодом. Нове дослідження Model Evaluation and Threat Research (METR) показало, що використання ШІ-інструментів на практиці призвело до уповільнення виконання завдань у досвідчених розробників на 19%.

Про це розповідає Бізнес • Медіа

Розчарування у продуктивності ШІ: результати експерименту

У ході експерименту 16 професійних розробників працювали над реальними задачами: від виправлення багів до рефакторингу коду у великих репозиторіях з відкритим кодом. Половина завдань виконувалась із залученням таких інструментів штучного інтелекту, як Claude та Cursor Pro, решта – традиційними методами. Хоча програмісти очікували приріст продуктивності до 24%, фактично завдання з використанням ШІ виконувалися повільніше.

Головною причиною втрат часу стала необхідність перевіряти результати генерації коду, очікувати на відповіді та долати неефективність інструментів у розумінні контексту проєкту. У 56% випадків розробники змушені були вручну доопрацьовувати запропонований ШІ код. 9% робочого часу витрачалося лише на валідацію відповідей штучного інтелекту.

“Записи екрана показали, що хоча ШІ прискорює написання і тестування коду, ця перевага нівелюється витратами часу на формулювання запитів, перевірку результатів і очікування генерації”.

Обмеження ШІ в складних проєктах

Дослідники наголошують, що більшість популярних бенчмарків базуються на спрощених завданнях, тоді як у реальних проєктах програмісти мають справу з мільйонами рядків коду та багаторічною історією змін. У таких умовах розуміння прихованих залежностей, стандартів якості та негласних вимог до коду є критично важливим – і тут ШІ поки що демонструє слабкі результати.

У підсумку дослідники дійшли висновку, що сучасні інструменти штучного інтелекту малоефективні при виконанні складних задач у зрілих проєктах, де швидкість поступається важливості якості. Проте METR вважає, що з удосконаленням моделей, зокрема Claude 3.7, ситуація може покращитися.

Загалом, у дослідженні підкреслюється: хоча ШІ вже корисний для окремих аспектів програмування, його реальне застосування у великих, складних проєктах поки що залишається обмеженим. Розробникам і компаніям рекомендується зважати на ці обмеження та не завищувати очікування від автоматизації кодування за допомогою штучного інтелекту.