Alibaba vs. OpenAI: сможет ли новая модель превзойти ChatGPT?
Новая модель ИИ, QwQ-32B-Preview, стала сильным конкурентом OpenAI в области рассуждающего искусственного интеллекта, особенно учитывая, что она доступна по лицензии Apache 2.0, то есть открыта для коммерческого использования. Разработанная командой Qwen компании Alibaba, эта модель с 32,5 миллиардами параметров может обрабатывать запросы объемом до 32 000 слов и превзошла модели OpenAI o1-preview и o1-mini на определенных тестах.
Согласно тестированию Alibaba, QwQ-32B-Preview превосходит модель OpenAI o1-preview в тестах AIME и MATH. Тест AIME оценивает модели с использованием других систем ИИ, а тест MATH включает коллекцию сложных текстовых задач. Способности новой модели позволяют ей справляться с логическими и умеренно сложными математическими задачами, хотя у нее есть свои ограничения. Например, Alibaba признала, что модель может неожиданно переключать языки, застревать в повторяющихся циклах или испытывать трудности с задачами, для которых требуется повседневное мышление.
В отличие от многих традиционных систем ИИ, QwQ-32B-Preview включает механизм самопроверки, который помогает избегать распространенных ошибок. Хотя этот подход повышает точность, он также увеличивает время, необходимое для получения решений. Подобно моделям OpenAI o1, QwQ-32B-Preview использует систематический процесс рассуждений, планируя шаги и методично их выполняя для получения ответа.
QwQ-32B-Preview доступна на платформе Hugging Face, где ее можно скачать и использовать. Подход модели к чувствительным темам совпадает с другими моделями рассуждений, такими как недавно выпущенная DeepSeek, обе из которых учитывают китайские нормативные рамки. Поскольку такие компании, как Alibaba и DeepSeek, работают в условиях строгой интернет-цензуры Китая, их системы ИИ разрабатываются в соответствии с правилами, продвигающими «базовые социалистические ценности». Это влияет на то, как модели реагируют на политически чувствительные запросы. Например, на вопрос о статусе Тайваня QwQ-32B-Preview дала ответ, соответствующий позиции китайского правительства. Запросы о событиях на площади Тяньаньмэнь не получали ответа, что отражает нормативную среду, в которой разрабатываются эти системы.
Хотя QwQ-32B-Preview представляется по разрешительной лицензии, не все компоненты модели были опубликованы. Этот частичный уровень открытости ограничивает возможность полностью воспроизвести модель или получить четкое представление об ее архитектуре. Дискуссии о том, что считать «открытостью» в разработке ИИ, продолжаются. Существуют как полностью закрытые системы, предлагающие только доступ к API, так и полностью открытые, раскрывающие все детали, включая веса и данные. QwQ-32B-Preview занимает промежуточную позицию в этом спектре.
Развитие моделей рассуждений, таких как QwQ-32B-Preview, происходит в то время, когда традиционные «законы масштабирования» ИИ подвергаются сомнению. На протяжении многих лет эти законы утверждали, что рост данных и вычислительных ресурсов будет приводить к постоянным улучшениям возможностей ИИ. Однако недавние отчеты показывают, что темпы прогресса моделей от ведущих лабораторий ИИ, включая OpenAI, Google и Anthropic, начали замедляться. Это стимулировало поиск инновационных подходов в разработке ИИ, включая новые архитектуры и техники.
Один из подходов, набирающих популярность, — это вычисления во время тестирования (test-time compute), также известные как вычисления на этапе вывода (inference compute). Этот метод позволяет моделям ИИ использовать дополнительные вычислительные ресурсы во время выполнения задач, что повышает их способность справляться со сложными вызовами. Этот подход лежит в основе таких моделей, как o1 и QwQ-32B-Preview, отражая сдвиг фокуса на оптимизацию производительности во время вывода, а не только на этапе обучения.
Крупные лаборатории ИИ, помимо OpenAI и китайских компаний, также активно инвестируют в модели рассуждений и вычисления во время тестирования. Недавний отчет показал, что Google значительно увеличила команду, занимающуюся моделями рассуждений, до примерно 200 человек. Вместе с этим компания выделила значительные вычислительные ресурсы для продвижения исследований в этой области, что свидетельствует о растущей заинтересованности индустрии в будущем рассуждающих моделей ИИ.