Новини

Свіжі новини та корисні статті про штучний інтелект і машинне навчання

Sophia скорочує час попереднього навчання мовних моделей вдвічі

Великі мовні моделі (ВММ) на кшталт ChatGPT набули широкої популярності та привернули велику увагу ЗМІ. Проте їхня розробка залишається прерогативою небагатьох технологічних гігантів.Значною мірою це обумовлено високими витратами на попереднє навчання таких мовних моделей, що обходиться у десятки, а то й сотні мільйонів доларів.

Через це ВММ найчастіше залишаються недоступними для невеликих організацій та академічних груп, проте дослідники зі Стенфордського університету прагнуть це змінити. Під керівництвом аспіранта Хун Лю вони розробили інноваційний підхід під назвою Sophia, який може вдвічі скоротити час попереднього навчання великих мовних моделей.

Оптимізація Sophia ґрунтується на двох нових методах, розроблених Стенфордською групою. Перший, відомий як оцінка кривизни, передбачає підвищення ефективності оцінки кривизни параметрів ВММ . Для його ілюстрації Лю порівнює процес попереднього навчання ВММ із виробничою лінією. Так само, як керівництво заводу прагне оптимізувати кроки, необхідні для перетворення сировини на готовий продукт, попереднє навчання ВММ включає оптимізацію мільйонів або мільярдів параметрів для досягнення кінцевої мети. Кривизна цих параметрів представляє їхню максимально досяжну швидкість, аналогічну завантаженості робітників на виробничій лінії.

Оскільки оцінка кривизни – завдання складне і дороге, дослідники зі Стенфорда шукали спосіб зробити його ефективнішим. Вони зауважили, що попередні методи оновлювали оцінки кривизни на кожному кроці оптимізації, що призводило до потенційної неефективності. Розробники Sophia скоротили частоту оцінки кривизни приблизно до кожних 10 кроків, що призвело до значного підвищення ефективності.

Другий метод, який використовує Sophia, називається відсіканням. Він спрямований на подолання проблеми неточності оцінки кривизни. Встановивши порогову, тобто максимальну оцінку кривизни, Sophia запобігає перенавантаженню параметрів ВММ . Дослідники порівнюють такий підхід з обмеженням робочого навантаження на виробничій лінії або з навігацією по ландшафту оптимізації, прагнучи досягти найнижчої долини, уникаючи при цьому сідлових точок.

Команда Лю перевірила Sophia, попередньо навчивши відносно невелику ВММ , використовуючи той самий розмір моделі та конфігурацію, що й OpenAI GPT-2. Завдяки поєднанню методів оцінки кривизни та відсікання Sophia змогла вдвічі скоротити часові витрати та кількість кроків оптимізації порівняно з широко використовуваним оптимізатором Adam.

Однією з помітних переваг Sophia є її адаптивність, що дозволяє управляти параметрами з різною кривизною ефективніше, ніж Adam. Крім того, завдяки цьому підходу вченим вперше за дев'ять років вдалося досягти суттєвого поліпшення в попередньому навчанні мовної моделі в порівнянні з Adam. Лю вважає, що Sophia може значно знизити витрати на навчання реальних великих мовних моделей, а також отримати ще більші переваги, оскільки моделі продовжують масштабуватися.

Забігаючи вперед, Лю та його колеги планують застосувати Sophia до більших ВММ та вивчити її потенціал в інших галузях, таких як моделі комп'ютерного зору та мультимодальні моделі. На це піде багато часу та ресурсів, проте відкритий вихідний код Sophia дозволяє широкому співтоваристві дослідників і розробників долучитися до її адаптації до різних областей.

На закінчення можна зауважити, що Sophia є значним прогресом у прискоренні попереднього навчання великих мовних моделей, демократизації доступу до цих моделей і потенційно революційних змін у різних галузях машинного навчання.