Microsoft запускает модель Phi-4 с полностью открытыми весами
Microsoft представила генеративную ИИ-модель Phi-4 с полностью открытыми весами на платформе Hugging Face. С момента её презентации в декабре 2024 года, она привлекла внимание благодаря улучшенной производительности в области математических вычислений и многозадачного понимания языка, при этом требуя меньше вычислительных ресурсов, в сравнении с более крупными моделями.
Phi-4 обладает 14 миллиардами параметров и призвана конкурировать с GPT-4o mini, Gemini 2.0 Flash и Claude 3.5 Haiku.
Эта малая языковая модель (SLM) предназначена для выполнения сложных математических вычислений, логического рассуждения и эффективной работы с многозадачностью, при этом требует меньше вычислительных ресурсов, чем более крупные модели. Phi-4 способна обрабатывать длинные контексты и обладает улучшенной производительностью, что делает её идеальной для использования в приложениях, где важна точность и эффективность. Ещё одной положительной особенностью является её MIT лицензия. Это означает, что её можно использовать, изменять и распространять бесплатно, даже в коммерческих целях.
Microsoft также улучшила качество модели с помощью синтетических данных и дообучения, что сделало её более точной в решении задач, требующих рассуждений. В задании, представленном на рисунке, продемонстрирован один из примеров математических рассуждений, на которые способна Phi-4.
В апреле прошлого года Microsoft представила модель Phi-3 Mini, первую в серии малых языковых моделей Phi-3. Она включает 3,8 млрд параметров и использует меньший набор данных, по сравнению с такими крупными моделями, как GPT-4. Позже, в августе, был анонсирован ряд моделей Phi-3.5, таких как Phi-3.5-vision и Phi-3.5-MoE. Все они основаны на синтетических данных и отобранных общедоступных источниках, поддерживая контекст длиной до 128 тыс. токенов. Этот путь подготовки и улучшения малых моделей логично привел к выпуску Phi-4.
Первоначально Phi-4 была доступна через платформу Azure AI Foundry. Теперь Microsoft выпустила Phi-4 на платформе Hugging Face с открытыми весами и лицензией MIT. Phi-4 также доступна через Ollama.
Модель Phi-4 демонстрирует исключительные способности в нескольких ключевых областях. Она превосходит более крупные модели в математических вычислениях, включая решение сложных задач, что делает её идеальной для приложений, требующих точных расчетов. Также она эффективна в многозадачности и логическом рассуждении, поддерживая длинный контекст и обеспечивая высокую производительность при ограниченных вычислительных ресурсах. Это делает Phi-4 подходящей для интеграции в различные научные и коммерческие проекты, где важна как точность, так и оптимизация использования ресурсов.
Теперь исследователи могут свободно интегрировать Phi-4 в свои проекты, благодаря предоставлению её весов. Это также позволит разработчикам адаптировать модель под конкретные задачи, что значительно расширяет возможности использования Phi-4 в различных сферах.
Для тех, кто хочет узнать подробнее о модели, рекомендуем ознакомиться с техническим отчётом на сайте arXiv.