
OpenAI випустила свої найпотужніші відкриті моделі
Цього тижня компанія OpenAI представила дві мовні моделі з відкритим доступом – gpt-oss-120b та gpt-oss-20b. Ці нові моделі створено для широкого кола користувачів та пропонують розширені можливості логічного мислення, гнучкість у використанні різних інструментів та тонке налаштування під потреби розробників. І усе це доступно під ліцензією Apache 2.0.
На відміну від закритих моделей GPT-4 чи GPT-4o, які доступні лише через хмарну інфраструктуру OpenAI, моделі gpt-oss можна вільно завантажити та запускати локально: на власному обладнанні або через численні платформи розгортання. Це меншує затримки під час роботи, забезпечує повний контроль над даними та конфіденційність.
Моделі gpt-oss-120b і gpt-oss-20b спеціально розроблені для ефективного виконання завдань, що потребують логічного мислення, з мінімальним споживанням ресурсів. Флагманська модель 120b містить 117 млрд параметрів, але завдяки архітектурі Mixture-of-Experts (MoE) активує лише 5,1 млрд параметрів на кожен токен, що дозволяє запускати модель на одному графічному процесорі (GPU) з 80 ГБ памʼяті. Версія 20b активує лише 3,6 млрд параметрів на токен і працює на пристроях з 16 ГБ оперативної памʼяті, що ідеально підходить для звичайних ноутбуків та периферійних пристроїв.
Обидві моделі підтримують контекстні вікна розміром до 128 000 токенів, міркування з ланцюгом думок (CoT) і з різними рівнями зусиль (низький, середній, високий), та структурований формат виводу. Моделі також мають вбудовану підтримку використання інструментів, зокрема виконання Python-коду та веб-пошуку, що надзвичайно важливо для створення і забезпечення роботи агентів зі складною логікою.
Моделі gpt-oss були навчені із застосуванням найсучасніших методик OpenAI, включаючи навчання з підкріпленням з високими обчислювальними витратами, контрольоване донавчання та процес вирівнювання після навчання. Моделі мають спільну лінію розвитку з моделями серії o від OpenAI (зокрема, o3, o4-mini).
В архітектурі моделей використано Rotary Positional Embeddings (RoPE), локалізовану розріджену увагу та згруповану увагу до багатьох запитів для оптимального балансу між продуктивністю та швидкістю виведення. Попереднє навчання орієнтувалося на STEM дисципліни, програмування та загальні знання, з токенізацією на основі надмножини, що використовується GPT-4o, відомої як o200k_harmony, яка також має відкритий доступ.
Безпека є ключовим пріоритетом OpenAI у розробці відкритих моделей. Компанія ретельно відфільтрувала дані попереднього навчання, щоб уникнути контенту, повʼязаного з високоризиковими темами (наприклад, хімічними, біологічними чи ядерними загрозами), а також застосувала обдумане узгодження (deliberative alignment) та ієрархії інструкцій, щоб посилити захист від зловмисних запитів.
Щоб змоделювати найгірші сценарії зловживання, OpenAI вороже налаштувала моделі на чутливі сфери, такі як кібербезпека та біологія. Однак, навіть при навмисних спробах “озброїти” моделі за допомогою власного навчального стека, ті не досягли високого рівня небезпеки, визначеного у Preparedness Framework компанії. Незалежні експертні оцінки підтвердили ці результати.
Крім того, компанія запустила Red Teaming Challenge із призовим фондом у розмірі 500 000 доларів США, щоб залучити дослідників з усього світу до пошуку потенційних вразливостей безпеки в моделях.
Моделі gpt-oss-120b та gpt-oss-20b доступні для завантаження на Hugging Face у форматі MXFP4, оптимізованому для ефективної інференції. OpenAI також надала інструменти для запуску в PyTorch, Apple Metal, а також рендерери harmony-формату на Python і Rust.
Партнерами по розгортанню моделей стали такі великі платформи, як Azure, AWS, Hugging Face, Vercel, Ollama, llama.cpp та інші. А у співпраці з виробниками обладнання, такими як NVIDIA, AMD, Cerebras та Groq, забезпечено оптимізовану продуктивність моделей на різних пристроях.
Microsoft також пропонує оптимізовані для GPU локальні версії gpt-oss-20b для Windows через ONNX Runtime, доступні через Foundry Local та AI Toolkit для Visual Studio Code.
Попри свої можливості, моделі gpt-oss є суто текстовими і не підтримують мультимодальні функції (зображення, аудіо). Крім цього, вони демонструють вищий рівень галюцинацій у порівнянні з новішими закритими моделями: gpt-oss-120b помиляється у 49% випадків тесту PersonQA, тоді як o1 – лише у 16%.
Утім, завдяки gpt-oss компанія OpenAI знову відкриває двері прозорому, децентралізованому розвитку штучного інтелекту. Поєднуючи потужні можливості з архітектурою, орієнтованою на безпеку, ці моделі дають можливість дослідникам, стартапам і розробникам вивчати, вдосконалювати та впроваджувати інновації за допомогою мовних моделей світового класу.