19 Січня, 2023

Модель синтезу мови - VALL-E може відтворювати голос із трисекундного аудіозапису

Команда дослідників з Microsoft представила нову систему штучного інтелекту, яка здатна імітувати голос людини після прослуховування аудіозапису тривалістю лише три секунди. На основі нейронної мережі мовна модель, яка називаэться VALL-E, використовує дискретні коди, отримані з готової моделі нейронних аудіо-кодеків, які розглядають перетворення тексту на мову, також відоме як Text-to-Speech (TTS), як умовне завдання моделювання мови, а не безперервну регресію сигналу.

Нова програма була створена з використанням технології стиснення аудіофайлів EnCodec від Meta, і спочатку була призначена для покращення якості телефонних розмов. Подальша робота продемонструвала, що модель здатна на набагато більше: вона може не тільки копіювати голос, а також імітувати тон і навіть акустику середовища, в якому було зроблено оригінальний запис. Тобто, якщо початковий аудіозапис був зроблений з телефонної розмови, то результат також буде нагадувати телефонну розмову.

На стадії навчання VALL-E розробники моделі використали понад 60 тисяч годин аудіозаписів, що в сотні разів перевищує обсяг використаних матеріалів для існуючих программ. VALL-E передбачає можливість проведення навчання в контексті та може використовувати для синтезу високоякісного персоналізованого мовлення лише 3-секундний запис.

Окрім скорочення часу на навчання моделі для створення нового голосу, VALL-E створює більш природний штучний голос, ніж інші моделі. Результати експерименту демонструють, що VALL-E значно перевершує сучасну систему TTS з точки зору природності мови та схожості голосу оповідача.

З демо-версією програми можна ознайомитися на сайті.

У зразках, представлених на вищевказаному сайті, стовпець “Speaker Prompt” містить зразки мовлення. У колонці "Ground Truth" знаходиться запис необхідного тексту у виконанні людини як зразок звукозапису. Стовпець “Baseline” є прикладом роботи традиційних перетворювачів тексту в мову. І, нарешті, колонка "VALL-E" демонструє результат роботи нової моделі ШІ.

Також, як безкоштовний приклад традиційних онлайн-перетворювачів тексту в мову, спробуйте зручний сервіс TTS від Qudata. Він абсолютно безкоштовний і доступний як для персональних комп'ютерів, так і для мобільних пристроїв.

Слід зазначити, що компанія Майкрософт не оприлюднила вихідний код для VALL-E, відзначивши, що це може нести потенційні ризики в разі неправильного використання моделі, наприклад, підробка голосової ідентифікації або видача себе за іншу людину. Тому кожен охочий випробувати моделі не зможе це зробити.

Дивіться також:
Неофіційна реалізація PyTorch VALL-E на основі EnCodec tokenizer.

Новини

Модель синтезу мови - VALL-E може відтворювати голос із трисекундного аудіозапису