Meta AI представила LLaMA – серію базових мовних моделей
Meta AI запустила LLaMA – колекцію базових мовних моделей з кількістю параметрів від 7 до 65 мільярдів. За словами розробників, LLaMA може конкурувати або навіть перевершити найкращі моделі з існуючих, такі як GPT-3, Chinchilla та PaLM.
Великі мовні моделі (LLM) навчаються на величезних за обсягом базах даних і вже продемонстрували свою здатність виконувати різноманітні завдання: від фундаментальних, таких як підсумовування тексту, підготовка текстових інструкцій і написання віршів, до складніших, таких як опис картин на базі штучного інтелекту.
У якості навчального набору даних для LLaMA розробники використовували сукупність кількох джерел: English CommonCrawl, C4, GitHub, Wikipedia, книги у відкритому доступі, ArXiv і Stack Exchange. Така база даних охопила різноманітний набір доменів. На відміну від Chinchilla, PaLM або GPT-3, LLaMA використовує лише загальнодоступну інформацію, що робить її роботу сумісною з відкритим вихідним кодом, тоді як більшість існуючих моделей покладаються на дані, які або не є загальнодоступними, або незадокументовані.
Щоб підвищити швидкість навчання моделі LLaMA, Meta АІ ефективно використала реалізацію модуля “multi-head attention”, що значно зменшує обсяг використаної пам’яті та необхідних обчислень. А для підвищення ефективності навчання розробники вирішили використовувати контрольні точки як засіб для зменшення кількості активацій, які повторно обчислюються під час зворотного проходження.
На відміну від попередніх досліджень, робота Meta АІ щодо LLaMA демонструє, що сучасна реалізація моделі може бути досягнута і без використання власних наборів даних, а при навчанні моделі виключно на загальнодоступних даних. Розробники сподіваються, що публікація запропонованої серії базових мовних моделей для дослідницького співтовариства прискорить розробку великих мовних моделей, допоможе підвищити їх надійність і зменшити вплив існуючих проблем, таких як токсичність і упередженість.
Детальніше про дослідження читайте в статті.