Потенціал Qwen3.5 від малих до флагманських моделей
Команда Alibaba випустила Qwen3.5 – останнє покоління великих мовних і мультимодальних моделей з відкритими вагами. Ця серія розширює межі продуктивності та ефективності, дозволяючи виконувати високорівневі завдання при значно зменшених обчислювальних ресурсах. Цей випуск узгоджується з загальногалузевим переходом до ефективного, придатного до розгортання штучного інтелекту: моделей, які забезпечують розвинене логічне мислення, програмування, агентну поведінку та власну мультимодальність, одночасно працюючи на споживчому обладнанні, периферійних пристроях, серверах з обмеженими ресурсами або навіть навіть у локальних/приватних середовищах.
Qwen3.5 охоплює широкий спектр розмірів і архітектур: від ультракомпактних щільних моделей з менш ніж 1 мільярдом параметрів до масивних розріджених флагманів Mixture of Experts (MoE) з понад 300 мільярдами загальних параметрів. Така багаторівнева лінійка дозволяє розробникам точно підібрати модель відповідно до вимог щодо затримки, пропускної здатності, обсягу пам’яті, вартості та можливостей.
У полегшеному сегменті серія Qwen3.5 Small включає чотири моделі з параметрами 0.8B, 2B, 4B та 9B. Випущені на початку березня 2026 року (завершуючи розгортання сімейства, яке розпочалося в середині лютого), ці рішення оптимізовані для роботи на пристроях та периферійних мережах: смартфони, Інтернет речей (IoT), вбудовані системи та локальне обчислення з підвищеним захистом конфіденційності.
Вони досягають вражаючої ефективності завдяки таким архітектурним рішенням, як гібридна увага (Gated Delta Networks для лінійного масштабування в часі) та методам, які мінімізують використання відеопам’яті. Навіть модель 9B безперебійно працює на скромних споживчих графічних процесорах або висококласному мобільному обладнанні. Усі малі моделі успадковують нативну мультимодальність та контекстне вікно з 262 144 токенами, що робить можливим обробку довгих документів та проведення розширених локальних розмов.
Варіант 9B вирізняється як найпотужніша серед малих моделей, значно скорочуючи розрив із набагато більшими моделями у логічному мисленні, вирішенні проблем та виконанні інструкцій, частково завдяки інтенсивному посттренувальному навчанні з підкріпленням.
Ключовим проривом сімейства Qwen3.5 є його рідна мультимодальна архітектура. На відміну від багатьох попередніх систем, які додавали візуальні кодери до попередньо навчених мовних моделей, Qwen3.5 інтегрує візуальну та мовну обробку ще на етапі попереднього навчання (early fusion). Такий підхід створює єдине представлення для тексту, зображень, діаграм, графіків, скріншотів і документів.
Результатом є покращена продуктивність у завданнях візуального розуміння: аналіз макетів документів, інтерпретація графіків/таблиць, логічне мислення щодо діаграм, детальне оптичне розпізнавання символів (OCR), візуальні відповіді на запитання та мультимодальна поведінка агентів (наприклад, розуміння і взаємодія з контентом екрана).
У флагманській та середній моделях MoE активується лише невелика частина параметрів на токен:
- Qwen3.5-397B-A17B (флагман): 397 млрд параметрів, активуються близько 17 млрд.
- Qwen3.5-122B-A10B: 122 млрд параметрів, активуються близько 10 млрд.
- Qwen3.5-35B-A3B: 35 млрд параметрів, активуються близько 3 млрд.
Ця розрідженість дозволяє виконувати високорівневі мультимодальні розумові завдання та агентську поведінку з витратами та швидкістю, наближеними до набагато менших щільних моделей – часто на 60% дешевше і з пропускною здатністю у 8 разів вищою на великих обсягах роботи порівняно з попереднім поколінням.
Qwen3.5 використовує масштабне навчання з підкріпленням після навчання, включаючи багатоагентні середовища моделювання з дедалі складнішими завданнями. Це покращує дотримання інструкцій, багатоетапне планування, використання інструментів, зменшує галюцинації, забезпечує структуроване дотримання виводу та адаптивність в агентних сценаріях (агенти кодування, візуальні агенти, довгострокове логічне мислення).
Серія значно розширює лінгвістичне покриття до 201 мови та діалекту, з особливим акцентом на мови з обмеженими ресурсами, сприяючи справді інклюзивному та культурно свідомому ШІ.
Усі моделі мають нативне контекстне вікно на 262 144 токени (262K), достатнє для цілих кодових баз, довгих документів, багатокрокових розмов або складного багатодокументного аналізу. Варіанти Hosted/API (наприклад, Qwen3.5-Plus на Alibaba Cloud Model Studio) розширюють цю кількість до 1 мільйона токенів.
Доступні під ліберальними відкритими ліцензіями (переважно Apache 2.0) на Hugging Face, ModelScope та GitHub, моделі Qwen3.5 дають змогу розробникам і компаніям у всьому світі створювати більш потужні, ефективні та доступні ШІ-застосунки: від мобільних асистентів і аналітики на периферії до потужних хмарних агентів і передових досліджень.