QuData Новости| Все о голосовых технологиях: голосовые помощники, распознавание речи

12 Июня, 2026

Gemini 3.5 Live Translate: мгновенный перевод реальным голосом

Google запустили Gemini 3.5 Live Translate – передовую ИИ-модель, которая обеспечивает непрерывный голосовой перевод более чем на 70 языках. В отличие от традиционных инструментов, система переводит речь непосредственно во время диалога, позволяя вести естественное общение и сохраняя интонацию голоса и темп говорящего.

ПОДРОБНЕЕ

20 Июня, 2024

Искусственный интеллект научился понимать лай собак

ИИ научился расшифровывать собачий лай, отличая игривый лай от агрессивного, а также определять возраст, пол и породу собаки. Изначально обученные на человеческой речи, модели ИИ достигли впечатляющей точности и обещают значительные улучшения в коммуникации и уходе за животными.

ПОДРОБНЕЕ

23 Мая, 2024

Новая эпоха мультимодального ИИ с GPT-4o

Компания OpenAI представила GPT-4о – уникальную омнимодель, объединяющую обработку текста, звука и изображений, что позволяет ей работать быстрее и эффективнее, чем когда-либо прежде.

ПОДРОБНЕЕ

22 Февраля, 2024

BASE TTS: сила модели с миллиардом параметров для преобразования текста в речь

Amazon представил модель TTS с инновационной архитектурой, которая устанавливает новый стандарт для синтеза речи. BASE TTS не только обеспечивает непревзойденную естественность речи, но и демонстрирует чрезвычайную адаптивность в обработке различных языковых нюансов.

ПОДРОБНЕЕ

1 Сентября, 2023

SeamlessM4T от Meta: общение без языковых барьеров

SeamlessM4T разрушает языковые барьеры благодаря своим комплексным возможностям перевода и транскрипции. Эта модель ИИ может легко преобразовать язык или текст, обеспечивая перевод в режиме реального времени и способствуя межкультурному взаимопониманию.

ПОДРОБНЕЕ

14 Июня, 2023

Генеративный искусственный интеллект преобразует виртуальных персонажей

Генеративный искусственный интеллект трансформирует мир компьютерных игр, преобразуя виртуальных персонажей и улучшая их навыки общения. NVIDIA Avatar Cloud Engine (ACE) позволяет разработчикам наделять неигровых персонажей интеллектом, тем самым изменяя игровой процесс и расширяя границы возможного.

ПОДРОБНЕЕ

19 Января, 2023

Модель синтеза речи – VALL-E может воспроизводить голос из трехсекундной аудиозаписи

Модели синтеза речи обычно требуют длительных образцов аудиофайлов для обработки, тогда как VALL-E имитирует голос всего за несколько секунд звукозаписи.

ПОДРОБНЕЕ

14 Ноября, 2022

Использование звука для моделирования местности

Исследователи Массачусетского технологического института разработали метод машинного обучения, который точно улавливает и моделирует основную акустику местности, используя лишь небольшое количество звукозаписей.

ПОДРОБНЕЕ

3 Сентября, 2021

W2V-BERT: Объединение контрастивного обучения и языка моделирования с маской для самоконтролируемого предварительного обучения речи

Мотивированные успехом моделирования масочного языка (MLM) в предварительном обучении моделей обработки естественного языка до обучения, авторы предлагают модель w2v-BERT, которая исследует MLM для самостоятельного обучения представлению речи.

ПОДРОБНЕЕ