21 Февраля, 2023

Google выпустила MusicLM – модель генерации музыки на основе текста

Команда инженеров из Google представила систему искусственного интеллекта нового поколения MusicLM. Модель создает высококачественную музыку на основе текстовых описаний, таких как "успокаивающая мелодия скрипки с искаженным гитарным рифом". Система работает подобно тому, как DALL-E создает изображение на основе текстов.

MusicLM использует многоэтапное авторегрессионное моделирование AudioLM в качестве генеративного компонента, расширяя его применение до обработки текстов. Для решения основной проблемы – дефицита парных данных ученые применили MuLan – общую музыкально-текстовую модель, которая научена проектировать музыку и соответствующее текстовое описание.

При обучении MusicLM на большом наборе данных музыки без лейблов разработанная модель рассматривает процесс создания условной музыки как иерархическую задачу моделирования последовательности и генерирует музыку на частоте 24 кГц, которая остается неизменной в течение нескольких минут. Чтобы решить проблему нехватки оценочных данных, разработчики обнародовали MusicCaps – новый высококачественный набор данных музыкальных субтитров с 5 500 примерами музыкально-текстовых пар, подготовленных опытными музыкантами.

Эксперименты демонстрируют, что MusicLM превосходит предыдущие системы как по качеству звука, так и по соблюдению текстового описания. Кроме того, модель MusicLM может быть привязана как к тексту, так и к мелодии. Она даже способна трансформировать свистящие или напетые мелодии в соответствии со стилем, предложенным в текстовом описании.

С демо-версией программы можно ознакомиться на сайте.

Модель научили создавать музыку, тренируя ее на наборе данных, содержащем пять миллионов аудиозаписей, что составляет 280 000 часов музыки и песен в исполнении артистов. MusicLM может создавать песни разной продолжительности. Например, она может сгенерировать быстрый риф или целую песню. И даже может выйти за рамки этого, создавая песни с чередующимися композициями, как это часто бывает в симфониях, чтобы создать ощущение полноценной истории. Система также может обрабатывать специфические запросы, например, запросы на определенные музыкальные инструменты или жанр. Она также может генерировать подобие вокала.

Создание модели MusicLM является частью системы приложений искусственного интеллекта для глубокого обучения, разработанных с целью воспроизведения умственных способностей человека, таких как устная речь, написание оригинальных текстов, рисование, прохождение тестов или формирование доказательств математических теорем.

На данный момент разработчики объявили, что Google не будет выпускать приложение для общего пользования. Тестирование продемонстрировало, что примерно 1% музыки, которую генерирует модель, копируется непосредственно у существующего исполнителя. Поэтому они опасаются незаконного присвоения контента и судебных тяжб.

Новости

Google выпустила MusicLM – модель генерации музыки на основе текста