Meta AI представила LLaMA – серию базовых языковых моделей
Meta AI запустила LLaMA – коллекцию базовых языковых моделей с количеством параметров от 7 до 65 миллиардов. По словам разработчиков, LLaMA может конкурировать или даже превзойти самые лучшие модели среди существующих, такие как GPT-3, Chinchilla и PaLM.
Большие языковые модели (LLM) учатся на огромных базах данных и продемонстрировали свою способность выполнять различные задачи: от фундаментальных, таких как обобщение текста, подготовка текстовых инструкций и написание стихов, до более сложных, таких как описание картин на базе искусственного интеллекта.
В качестве обучающего набора данных для LLaMA разработчики использовали совокупность нескольких источников: English CommonCrawl, C4, GitHub, Wikipedia, книги в открытом доступе, ArXiv и Stack Exchange. Такая база данных охватила всевозможный набор доменов. В отличие от Chinchilla, PaLM или GPT-3, LLaMA использует только общедоступную информацию, что делает ее работу совместимой с открытым исходным кодом, в то время как большинство существующих моделей полагаются на данные, которые либо не общедоступны, либо не задокументированы.
Чтобы повысить скорость обучения модели LLaMA, Meta AI эффективно использовала реализацию модуля “multi-head attention”, что значительно уменьшает объем использованной памяти и необходимых вычислений. А для повышения эффективности обучения разработчики решили использовать контрольные точки как средство уменьшения количества активаций, которые повторно вычисляются во время обратного прохождения.
В отличие от предыдущих исследований, работа Meta AI над LLaMA демонстрирует, что современная реализация модели может быть достигнута и без использования собственных наборов данных, а при обучении модели исключительно на общедоступных данных. Разработчики надеются, что публикация предложенной серии базовых языковых моделей для исследовательского сообщества ускорит разработку больших языковых моделей, поможет повысить их надежность и уменьшить влияние существующих проблем, таких как токсичность и предвзятость.
Детальнее об исследовании читайте в статье.