BASE TTS: сила моделі з мільярдом параметрів для перетворення тексту на мову
Остання розробка Amazon у галузі штучного інтелекту (ШІ) сколихнула світ технологій, представивши найбільшу модель синтезу мовлення (text-to-speech, TTS). Розроблена командою дослідників штучного інтелекту в Amazon AGI, ця колосальна модель може похвалитися вражаючими 980 мільйонами параметрів і була навчена за допомогою 100 000 годин записаного мовлення, переважно англійською мовою. Новаторська модель отримала назву Big Adaptive Streamable TTS with Emergent abilities (BASE TTS) та являє собою значний крок вперед у сфері технологій синтезу мови.
Давайте розберемо найбільш захоплюючі особливості моделі:
Архітектура
- Авторегресійний трансформатор з 1 мільярдом параметрів: в основі BASE TTS лежить потужний авторегресійний трансформатор. Ця нейронна мережа перетворює необроблений текст у дискретні коди, відомі як «мовні коди».
- Декодер на основі згорткової нейронної мережі: після мовних кодів декодер на основі згорткової мережі перетворює їх у реальні хвильові сигнали. Його перевага полягає в поступовому, потоковому підході, що дозволяє здійснювати синтез мови в реальному часі.
Мовні коди
- Мовні токени на основі автокодувальника: BASE TTS представляє нову техніку токенізації мовлення. Ці мовні маркери розкривають ідентичність мовця та стискають інформацію за допомогою кодування пар байтів.
- Розпізнавання особистості спікера: уявіть систему TTS, яка може легко імітувати різних дикторів. BASE TTS досягає цього, виокремлюючи характеристики ораторів з вихідного аудіо.
- Виникнення природної просодії: повторюючи явище, яке спостерігається у великих мовних моделях, BASE TTS з напрацюванням понад 10 тис. годин і понад 500 млн параметрів починає демонструвати природну просодію навіть у складних реченнях.
Новий рівень природності
- Природність мови: BASE TTS встановлює новий стандарт природності. Її результати не поступаються загальнодоступним великомасштабним моделям TTS, таким як YourTTS, Bark і Tortoise TTS.
- Складні слова, емоції та пунктуація: BASE TTS обробляє складну лексику, додає емоції та розпізнає пунктуацію. Модель не лише роботизована; вона виразна.
Перспективи для розвитку ШІ
- Ефективність даних: BASE TTS демонструє, що показники ефективності даних можуть бути вбудовані у великомасштабні моделі. Вона досягає вражаючих результатів за меншу кількість годин навчання.
- Потокова можливість: поступовий, потоковий підхід відкриває нові можливості для додатків у режимі реального часу в голосових помічниках, аудіокнигах тощо.
Важливість розробки моделі BASE TTS полягає не тільки в масштабах моделі, але й у її виняткових можливостях – феномені, коли додаток ШІ демонструє раптовий прорив у інтелекті. Завдяки ретельному тестуванню дослідники виявили, що цей стрибок стався на позначці 150 мільйонів параметрів, підкреслюючи критичну роль розміру набору даних у розвитку можливостей ШІ.
Однією з найвизначніших особливостей моделі BASE TTS є її універсальність у обробці різних мовних атрибутів. Від складних і складених слів до емоційних висловлювань, вимови іноземних слів і навіть нюансів в інтонації та пунктуації, модель демонструє вражаюче володіння тонкощами мови. Крім того, її здатність правильно звертати увагу на ключові слова в реченні та точно ставити питання додає ще один рівень витонченості до її функціональності.
Модель BASE TTS не буде відкрита для вільного використання через етичні міркування щодо її можливої неправильної експлуатації. Дослідницька група Amazon планує застосувати свої знання для підвищення загальної якості програм перетворення тексту на мовлення.
Однак вже зараз ви можете спробувати зручний онлайн-сервіс синтезу мовлення від QuData. Насолоджуйтеся сучасною технологією для озвучування тексту та перетворюйте письмовий текст на голос безкоштовно!