Google запустили Gemini 3.5 Live Translate – передовую ИИ-модель, которая обеспечивает непрерывный голосовой перевод более чем на 70 языках. В отличие от традиционных инструментов, система переводит речь непосредственно во время диалога, позволяя вести естественное общение и сохраняя интонацию голоса и темп говорящего.
ИИ научился расшифровывать собачий лай, отличая игривый лай от агрессивного, а также определять возраст, пол и породу собаки. Изначально обученные на человеческой речи, модели ИИ достигли впечатляющей точности и обещают значительные улучшения в коммуникации и уходе за животными.
Компания OpenAI представила GPT-4о – уникальную омнимодель, объединяющую обработку текста, звука и изображений, что позволяет ей работать быстрее и эффективнее, чем когда-либо прежде.
Amazon представил модель TTS с инновационной архитектурой, которая устанавливает новый стандарт для синтеза речи. BASE TTS не только обеспечивает непревзойденную естественность речи, но и демонстрирует чрезвычайную адаптивность в обработке различных языковых нюансов.
SeamlessM4T разрушает языковые барьеры благодаря своим комплексным возможностям перевода и транскрипции. Эта модель ИИ может легко преобразовать язык или текст, обеспечивая перевод в режиме реального времени и способствуя межкультурному взаимопониманию.
Генеративный искусственный интеллект трансформирует мир компьютерных игр, преобразуя виртуальных персонажей и улучшая их навыки общения. NVIDIA Avatar Cloud Engine (ACE) позволяет разработчикам наделять неигровых персонажей интеллектом, тем самым изменяя игровой процесс и расширяя границы возможного.
Модели синтеза речи обычно требуют длительных образцов аудиофайлов для обработки, тогда как VALL-E имитирует голос всего за несколько секунд звукозаписи.
Исследователи Массачусетского технологического института разработали метод машинного обучения, который точно улавливает и моделирует основную акустику местности, используя лишь небольшое количество звукозаписей.
Мотивированные успехом моделирования масочного языка (MLM) в предварительном обучении моделей обработки естественного языка до обучения, авторы предлагают модель w2v-BERT, которая исследует MLM для самостоятельного обучения представлению речи.