Новости

Свежие новости и полезные статьи про искусственный интеллект и машинное обучение

Sophia сокращает время предварительного обучения языковых моделей вдвое

Большие языковые модели (БЯМ), такие как ChatGPT, приобрели широкую популярность и привлекли огромное внимание СМИ. Однако их разработка остается прерогативой немногих технологических гигантов. Во многом это обусловлено высокими затратами на предварительное обучение таких языковых моделей, которое обходится в десятки, а то и сотни миллионов долларов.

Из-за этого БЯМ зачастую остаются недоступными для небольших организаций и академических групп, однако группа исследователей из Стэнфордского университета стремится это изменить. Под руководством аспиранта Хун Лю они разработали инновационный подход под названием Sophia, который может вдвое сократить время на предварительное обучение больших языковых моделей.

Оптимизация Sophia основывается на двух новых методах, разработанных командой из Стэнфорда. Первый, известный как оценка кривизны, предполагает повышение эффективности оценки кривизны параметров БЯМ. Для его иллюстрации Лю сравнивает процесс предварительного обучения БЯМ с производственной линией. Точно так же, как руководство завода стремится оптимизировать шаги, необходимые для преобразования сырья в готовый продукт, предварительное обучение БЯМ включает в себя оптимизацию миллионов или миллиардов параметров для достижения конечной цели. Кривизна этих параметров представляет их максимально достижимую скорость, аналогичную загруженности рабочих на производственной линии.

Поскольку оценка кривизны – задача сложная и дорогостоящая, исследователи из Стэнфорда искали способ сделать ее более эффективной. Они заметили, что предыдущие методы обновляли оценки кривизны на каждом шаге оптимизации, что приводило к потенциальной неэффективности. В Sophia они сократили частоту оценки кривизны примерно до каждых 10 шагов, что привело к значительному повышению эффективности.

Второй метод, который использует София, называется отсечением. Он направлен на преодоление проблемы неточности оценки кривизны. Установив пороговую, т.е. максимальную оценку кривизны, Sophia предотвращает перегрузку параметров БЯМ. Исследователи сравнивают такой подход с ограничением рабочей нагрузки на производственной линии или с навигацией по ландшафту оптимизации, стремясь достичь самой низкой долины, избегая при этом седловых точек.

Команда Лю проверила Sophia, предварительно обучив относительно небольшую БЯМ, используя тот же размер модели и конфигурацию, что и OpenAI GPT-2. Благодаря сочетанию оценки кривизны и отсечения Sophia смогла вдвое сократить временные затраты и количество шагов оптимизации по сравнению с широко используемым оптимизатором Adam.

Одним из заметных преимуществ Sophia является ее адаптивность, позволяющая управлять параметрами с различной кривизной более эффективно, чем Adam. Кроме того, благодаря данному подходу ученым впервые за девять лет удалось добиться существенного улучшения в предварительном обучении языковой модели по сравнению с Adam. Лю считает, что Sophia может значительно снизить затраты на обучение реальных больших моделей, а также получить еще большие преимущества по мере того, как модели продолжают масштабироваться.

Забегая вперед, Лю и его коллеги планируют применить Sophia к более крупным БЯМ и изучить ее потенциал в других областях, таких как модели компьютерного зрения и мультимодальные модели. Это может потребовать много времени и ресурсов. Однако открытый исходный код Sophia позволяет широкому сообществу исследователей и разработчиков вносить свой вклад и адаптировать ее к различным областям.

В заключение можно сказать, что Sophia представляет собой значительный прогресс в ускорении предварительного обучения больших языковых моделей, демократизации доступа к этим моделям и потенциально революционных изменениях в различных областях машинного обучения.