Microsoft протестувала ШІ-агентів у Magentic Marketplace та виявила їхні недоліки

Microsoft закупила 400 МВт сонячної енергії для підтримки ШІ-продуктів

Корпорація Microsoft спільно з Університетом Аризони провела серію експериментів із провідними моделями штучного інтелекту у спеціально створеному симуляційному середовищі Magentic Marketplace. Ця платформа дозволила дослідити, як ШІ-агенти поводяться в умовах конкуренції та співпраці, а також виявити їхні основні слабкі сторони.

Про це розповідає Бізнес • Медіа

Проведені експерименти та результати

В рамках випробувань сотні штучних агентів взаємодіяли на цифровому торговому майданчику, де клієнтські агенти виконували завдання — наприклад, оформлення замовлень на їжу, а корпоративні змагалися між собою за угоди. Вихідний код симуляції Magentic Marketplace вже відкритий для сторонніх команд, щоб вони могли відтворювати та вдосконалювати проведені дослідження.

Тести продемонстрували, що сучасні ШІ-моделі, зокрема GPT-4o, GPT-5 і Gemini 2.5 Flash, виявляються вразливими до маніпуляцій. Дослідники встановили, що агентам можна нав’язати вибір на користь певних продавців, що ставить під сумнів їхню автономність. Окрім цього, зі збільшенням кількості можливих дій продуктивність агентів суттєво знижувалася через когнітивне перевантаження.

Проблеми співпраці та автономності ШІ

Ще однією важливою проблемою виявилася нездатність агентів ефективно співпрацювати без чітких інструкцій. Якщо моделі отримували детальні покрокові вказівки, їхня продуктивність покращувалася, але навіть у такому випадку спостерігалася обмеженість у самостійному розподіленні ролей та прийнятті рішень.

“Ключове питання полягає в тому, чи зможуть автономні системи ефективно взаємодіяти та домовлятися без людського контролю”.

За словами керівника AI Frontiers Lab у Microsoft Research Едже Камара, результати експерименту свідчать про значний розрив між поточним рівнем розвитку ШІ-агентів та очікуваним рівнем автономної роботи. Незважаючи на досягнення у сфері генеративного ШІ, шлях до створення повністю автономних агентських систем, здатних приймати складні рішення в реальному середовищі, залишається далеким від завершення.

Раніше повідомлялося, що команда nof1.ai організувала змагання з торгівлі криптоактивами серед шести моделей штучного інтелекту.