Компанія Alibaba оголосила про запуск нового сімейства великих мовних моделей (LLM) під назвою Qwen3, яке охоплює моделі з кількістю параметрів від 0,6 до 235 мільярдів. Представники фірми запевняють, що в ключових завданнях ШІ ці моделі демонструють результати, порівнянні або кращі за рішення від таких гігантів, як openAI і google.
Про це розповідає Бізнес • Медіа
Особливості та технічні характеристики Qwen3
Нові моделі поширюються під відкритою ліцензією і вже доступні на платформах Hugging Face та GitHub. Вони підтримують гібридний режим обробки запитів, що дозволяє моделям виконувати як прості, так і складні обчислювальні операції, оптимізуючи використання ресурсів.
Деякі версії побудовані за архітектурою MoE (Mixture of Experts), яка розподіляє завдання між спеціалізованими підмоделями. За словами представників компанії, обсяг навчальних даних склав майже 36 трлн токенів, включно з навчальними матеріалами, кодом, питаннями та відповідями, а також синтетичними даними.
Результати тестування та перспективи розвитку
За результатами тестів на платформах Codeforces і AIME найбільша модель Qwen3 перевищила показники o3-mini від openAI та Gemini 2.5 Pro від google. Втім, поки що недоступна версія з 235 млрд параметрів, але на ринку вже активно використовується модель Qwen3-32B, яка демонструє кращі результати у низці кодингових бенчмарків порівняно з моделлю o1 від openAI.
Згідно з інформацією компанії, моделі Qwen3 вже можна запускати через хмарні платформи Fireworks AI та Hyperbolic. Експерти вважають, що, незважаючи на обмеження щодо експорту до інших країн, китайські розробники ШІ все активніше конкурують із західними лідерами галузі.