Alibaba vs. OpenAI: чи зможе нова модель перевершити ChatGPT?
Нова модель ШІ, QwQ-32B-Preview, може скласти конкуренцію OpenAI у сфері штучного інтелекту для логічного мислення, особливо враховуючи, що вона доступна за ліцензією Apache 2.0, тобто відкрита для комерційного використання. Розроблена командою Qwen компанії Alibaba, ця модель має 32,5 млрд. параметрів і може обробляти запити обсягом до 32 тис. слів, перевершивши моделі OpenAI o1-preview та o1-mini на певних тестах.
За результатами тестування Alibaba, QwQ-32B-Preview перевершує модель OpenAI o1-preview у тестах AIME і MATH. Тест AIME оцінює моделі за допомогою інших систем ШІ, а тест MATH включає добірку складних текстових задач. Здатності нової моделі дозволяють їй справлятися з логічними задачами та вирішувати помірно складні математичні проблеми, хоча вона має певні обмеження. Наприклад, Alibaba визнала, що модель може несподівано змінювати мову, застрягати у повторюваних циклах або мати труднощі з задачами, що потребують раціонального мислення.
На відміну від багатьох традиційних систем ШІ, QwQ-32B-Preview включає механізм самоперевірки, який допомагає уникати поширених помилок. Хоча цей підхід підвищує точність, він також збільшує час, необхідний для отримання рішення. Подібно до моделей OpenAI o1, QwQ-32B-Preview використовує систематичний процес мислення, плануючи кроки та методично виконуючи їх для отримання відповіді.
QwQ-32B-Preview доступна на платформі Hugging Face, де її можна завантажити та використовувати. Підхід моделі до чутливих тем збігається з іншими моделями логічного мислення, такими як недавно випущена DeepSeek, обидві з яких враховують китайські нормативні рамки. Оскільки такі компанії, як Alibaba та DeepSeek, працюють в умовах суворої інтернет-цензури Китаю, їх системи ШІ розробляються відповідно до правил, що просувають «базові соціалістичні цінності». Це впливає на те, як моделі реагують на політично чутливі запити. Наприклад, на питання про статус Тайваню QwQ-32B-Preview дала відповідь, що відповідає позиції китайського уряду. Аналогічно, запити про площу Тяньаньмень залишалися без відповіді, що відображає нормативне середовище, в якому розробляються ці системи.
Хоча QwQ-32B-Preview позиціонується як доступна за дозвільною ліцензією, не всі компоненти моделі були оприлюднені. Цей частковий рівень відкритості обмежує можливість повністю відтворити модель або отримати чітке уявлення про її архітектуру. Дискусії про те, що вважати «відкритістю» у розробці ШІ, тривають. Існують як повністю закриті системи, що пропонують лише доступ до API, так і повністю відкриті, які розкривають усі деталі, включаючи ваги та дані. QwQ-32B-Preview займає проміжну позицію в цьому спектрі.
Зростання моделей логічного мислення, таких як QwQ-32B-Preview, відбувається в той час, коли традиційні «закони масштабування» ШІ ставляться під сумнів. Протягом багатьох років ці закони припускали, що збільшення даних і обчислювальних ресурсів призведе до постійного вдосконалення можливостей ШІ. Однак останні звіти показують, що прогресування для моделей від провідних лабораторій ШІ, включаючи OpenAI, Google і Anthropic, наразі сповільнюється. Це підштовхнуло пошук інноваційних підходів у розробці ШІ, включаючи нові архітектури та методи./p>
Одним із таких підходів, що набирає популярності, є обчислення під час тестування (test-time compute), також відоме як обчислення висновків (inference compute). Цей метод дозволяє моделям штучного інтелекту використовувати додатковий час обробки під час виконання завдань, підвищуючи їх здатність справлятися зі складними завданнями. Обчислення під час тестування є основою таких моделей, як o1 і QwQ-32B-Preview, відображаючи зміщення уваги в бік оптимізації продуктивності під час висновків, а не покладатися виключно на навчання.
Великі лабораторії штучного інтелекту, окрім OpenAI чи китайських компаній, також інвестують значні кошти в моделі логічного мислення і обчислення під час тестування. Недавній звіт підкреслив, що Google значно розширив свою команду, яка займається моделями логічного мислення. Крім того, компанія виділила значні обчислювальні ресурси для розвитку цієї галузі досліджень ШІ, що свідчить про її впевненість, що майбутнє за моделями ШІ для логічного мислення.