
Phi-4 – малі моделі, великі результати
Сімейство Phi-4 – це найновіша розробка Microsoft у сфері малих мовних моделей (SLMs), які спеціально розроблені для ефективної роботи з задачами, що потребують складного логічного мислення. Серія Phi-4 включає три основні моделі: Phi-4-reasoning, Phi-4-reasoning-plus та Phi-4-mini-reasoning. Ці моделі мають чітку мету – забезпечити високоякісну логічну форму міркування без потреби в обчислювальних ресурсах, які вимагають трильйонів параметрів. Вони досягають оптимального балансу між розміром і продуктивністю завдяки сучасним методам, таким як дистиляція знань, навчання з підкріпленням та ретельний підбір навчальних даних.
Phi-4-reasoning – модель з 14 мільярдами параметрів і контекстним вікном у 32 тисячі токенів. Її навчали на якісних веб-даних і промптах, згенерованих моделлю OpenAI o3-mini. Вона демонструє високу точність у задачах, що потребують багатокрокового логічного мислення, таких як математика, програмування та алгоритмічні задачі.
Phi-4-reasoning-plus – вдосконалена версія Phi-4-reasoning з додатковим тонким налаштуванням. Вона використовує в 1,5 рази більше токенів для навчання, а також методи навчання з підкріпленням, що дозволяє досягати ще точніших і швидших результатів.
Phi-4-mini-reasoning – найменша модель у сімействі з 3,8 мільярдами параметрів. Вона була навчена на мільйоні синтетичних математичних задач, створених за допомогою DeepSeek R1. Модель орієнтована на освітні застосунки та мобільні пристрої, ефективно вирішує задачі навіть у середовищах з обмеженими ресурсами.
У бенчмарках, таких як HumanEval+ та MATH-500, Phi-4 демонструє надзвичайні результати:
- Phi-4-reasoning-plus перевершує модель DeepSeek-R1 (671 млрд параметрів) у деяких завданнях, доводячи, що розумне навчання ефективніше за просту масштабність.
- Модель також конкурує з OpenAI o3-mini і випереджає DeepSeek-R1-Distill-Llama-70B у задачах, що потребують складного планування й аналізу.
- Навіть компактна Phi-4-mini-reasoning показує результати на рівні з більшими моделями, а в деяких математичних тестах – перевершує їх.
Відповідно до концепції відповідального штучного інтелекту від Microsoft, усі моделі Phi-4 навчаються за допомогою надійних протоколів безпеки. Після основного навчання застосовуються додаткові етапи безпеки, зокрема: навчання під наглядом (Supervised Fine-Tuning), пряма оптимізація переваг (Direct Preference Optimization) і навчання з підкріпленням на основі зворотного зв'язку з людиною (RLHF). Microsoft використовує загальнодоступні набори даних, орієнтовані на безпеку, корисність і справедливість, забезпечуючи широке застосування та мінімізуючи ризики.
Усі три моделі доступні для вільного використання через платформи Hugging Face та Azure AI Foundry. Розробники, освітні установи й стартапи можуть легко інтегрувати ці моделі у свої застосунки, створюючи інтелектуальні системи з потужним логічним ядром навіть на пристроях із обмеженими ресурсами.