22 Февраля, 2024

BASE TTS: сила модели с миллиардом параметров для преобразования текста в речь

Последняя разработка Amazon в области искусственного интеллекта (ИИ) всколыхнула мир технологий, представив крупнейшую модель синтеза речи (text-to-speech, TTS). Разработанная командой исследователей искусственного интеллекта в Amazon AGI, эта колоссальная модель может похвастаться впечатляющими 980 миллионами параметров и была обучена с помощью 100 000 часов записанной речи, преимущественно на английском языке. Новаторская модель получила название Big Adaptive Streamable TTS with Emergent abilities (BASE TTS) и представляет собой значительный шаг вперед в сфере технологий синтеза речи.

Давайте разберем наиболее увлекательные особенности модели:

Архитектура

Авторегрессионный трансформатор с 1 млрд параметров: в основе BASE TTS лежит мощный авторегрессионный трансформатор. Эта нейронная сеть преобразует необработанный текст в дискретные коды, известные как "речевые коды".
Декодер на основе сверточной нейронной сети: после речевых кодов декодер на основе сверточной сети преобразует их в реальные волнообразные сигналы. Его преимущество заключается в постепенном, потоковом подходе, позволяющем осуществлять синтез речи в реальном времени.

Языковые коды

Речевые токены на основе автокодировщика: BASE TTS представляет новую технику токенизации речи. Эти языковые маркеры раскрывают идентичность говорящего и сжимают информацию с помощью кодирования пар байтов.
Распознавание личности спикера: представьте систему TTS, которая может легко имитировать различных дикторов. BASE TTS достигает этого, выделяя характеристики ораторов из исходного аудио.
Возникновение естественной просодии: повторяя явление, которое наблюдается в больших языковых моделях, BASE TTS с наработкой более 10 тыс. часов и более 500 млн параметров начинает демонстрировать естественную просодию даже в сложных предложениях.

Новый уровень естественности

Естественность речи: BASE TTS устанавливает новый стандарт естественности. Ее результаты не уступают общедоступным крупномасштабным моделям TTS, таким как YourTTS, Bark и Tortoise TTS.
Сложные слова, эмоции и пунктуация: BASE TTS обрабатывает сложную лексику, добавляет эмоции и распознает пунктуацию. Модель не только роботизированная; она выразительная.

Перспективы для развития ИИ

Эффективность данных: BASE TTS демонстрирует, что показатели эффективности данных могут быть встроены в крупномасштабные модели. Она достигает впечатляющих результатов за меньшее количество часов обучения.
Потоковая возможность: постепенный, потоковый подход открывает новые возможности для приложений в режиме реального времени в голосовых помощниках, аудиокнигах и т.д.

Важность разработки модели BASE TTS заключается не только в масштабах модели, но и в ее исключительных возможностях – феномене, когда приложение ИИ демонстрирует внезапный прорыв в интеллекте. Благодаря тщательному тестированию исследователи обнаружили, что этот скачок произошел на отметке 150 миллионов параметров, подчеркивая критическую роль размера набора данных в развитии возможностей ИИ.

Одной из важнейших особенностей модели BASE TTS является ее универсальность в обработке различных языковых атрибутов. От сложных и сложносоставных слов до эмоциональных высказываний, произношения иностранных слов и даже нюансов в интонации и пунктуации, модель демонстрирует впечатляющее владение тонкостями речи. Кроме того, ее способность правильно обращать внимание на ключевые слова в предложении и точно задавать вопросы добавляет еще один уровень утонченности к ее функциональности.

Модель BASE TTS не будет выложена в открытый доступ из-за этических соображений относительно ее возможного неправильного применения. Исследовательская группа Amazon планирует использовать свои знания для повышения общего качества программ преобразования текста в речь.

Однако уже сейчас вы можете испытать удобный онлайн-сервис синтеза речи от QuData. Наслаждайтесь нашей технологией для озвучки текста и преобразовывайте письменный текст в голос бесплатно!

Новости

BASE TTS: сила модели с миллиардом параметров для преобразования текста в речь