19 Января, 2023

Модель синтеза речи – VALL-E может воспроизводить голос из трехсекундной аудиозаписи

Команда исследователей из Microsoft представила новую систему искусственного интеллекта, способную имитировать голос человека после прослушивания аудиозаписи продолжительностью всего три секунды. На основе нейронной сети языковая модель, названная VALL-E, использует дискретные коды, полученные из готовой модели нейронных аудио-кодеков, которые рассматривают преобразование текста в речь, также известное как Text-to-Speech (TTS), как условное задание моделирование речи, а не непрерывную регрессию сигнала.

Новое приложение было создано с использованием технологии сжатия аудиофайлов EnCodec от Meta, и первоначально было предназначено для улучшения качества телефонных разговоров. Дальнейшая работа показала, что модель способна гораздо больше: она может не только копировать голос, а также имитировать тон и даже акустику среды, в которой была сделана оригинальная запись. То есть, если изначальная аудиозапись была сделана из телефонного разговора, то результат также будет напоминать телефонный разговор.

На стадии обучения VALL-E разработчики модели использовали более 60000 часов аудиозаписей, что в сотни раз превышает объем использованных материалов для существующих систем. VALL-E предполагает проведение обучения в контексте и может использовать для синтеза высококачественной персонализированной речи всего лишь 3-секундную запись.

Помимо сокращения времени на обучение для создания нового голоса, VALL-E создает более естественный искусственный голос, по сравнению с другими моделями. Результаты эксперимента демонстрируют, что VALL-E значительно превосходит современную систему TTS с точки зрения естественности речи и сходства голоса повествователя.

С демо-версией приложения можно ознакомиться на сайте.

В предложенных на сайте образцах, столбец "Speaker Prompt" содержит образцы речи. В колонке "Ground Truth" представлена запись необходимого текста в исполнении человека, с которого был записан образец. "Baseline" является примером работы традиционных преобразователей текста в речь. И, наконец, "VALL-E" демонстрирует результат работы новой модели ИИ.

Также, как бесплатный пример традиционных онлайн-преобразователей текста в речь, попробуйте удобный сервис TTS от Qudata. Он абсолютно бесплатен и доступен как для персональных компьютеров, так и для мобильных устройств.

Следует отметить, что компания Майкрософт не сделала исходный код для VALL-E открытым, отметив, что это может нести потенциальные риски в случае неправильного использования модели, например подделка голосовой идентификации или выдача себя за другого человека. Поэтому все желающие протестировать работу модель не смогут это сделать.

Новости

Модель синтеза речи – VALL-E может воспроизводить голос из трехсекундной аудиозаписи