Google випустила MusicLM – модель генерації музики на основі тексту
Команда інженерів від Google представила систему штучного інтелекту нового покоління MusicLM. Модель створює високоякісну музику на основі текстових описів, таких як "заспокійлива мелодія скрипки з перекрученим гітарним рифом". Система працює подібно до того, як DALL-E створює зображення на основі текстів.
MusicLM використовує багатоетапне авторегресійне моделювання AudioLM як генеративний компонент, розширюючи його застосування до обробки текстів. З метою вирішення основної проблеми – дефіциту парних даних вчені застосували MuLan – спільну музично-текстову модель, яка навчена проектувати музику та відповідний текстовий опис.
Під час навчання MusicLM на великому наборі даних музики без лейблів розроблена модель розглядає процес створення умовної музики як ієрархічну задачу моделювання послідовності і генерує музику з частотою 24 кГц, яка залишається незмінною протягом декількох хвилин. Щоб вирішити проблему нестачі оціночних даних, розробники оприлюднили MusicCaps – новий високоякісний набір даних музичних субтитрів з 5 500 прикладами музично-текстових пар, підготовлених досвідченими музикантами.
Експерименти демонструють, що MusicLM перевершує попередні системи як за якістю звуку, так і за дотриманням текстового опису. Крім того, модель MusicLM може бути прив'язана як до тексту, так і до мелодії. Вона здатна трансформувати свистячі або наспівані мелодії відповідно до стилю, який запропоновано в текстовому описі.
З демо-версією програми можна ознайомитися на сайті.
Модель навчили створювати музику, тренуючи її на наборі даних, який містить п'ять мільйонів аудіозаписів, що становить 280 000 годин музики та пісень у виконанні артистів. MusicLM може створювати пісні різної тривалості. Наприклад, вона може згенерувати швидкий риф або цілу пісню. І навіть може вийти за рамки цього, створюючи пісні з композиціями, які чергуються, як це часто буває в симфоніях, щоб створити відчуття повноцінної історії. Система також може обробляти специфічні запити, наприклад, запити на певні музичні інструменти або певний жанр. Вона також може створювати подібність вокалу.
Розробка моделі MusicLM є частиною системи додатків штучного інтелекту для глибинного навчання, створених з метою відтворення розумових здібностей людини, таких як усне мовлення, написання оригінальних робіт, малювання, складання тестів або формування доказів математичних теорем.
Наразі розробники оголосили, що Google не випускатиме додаток для загального користування. Тестування продемонстурвало, що приблизно 1% музики, яку генерує система, копіюється безпосередньо у виконавця. Тому вони остерігаються незаконного привласнення контенту та судових позовів.