Новости

Свежие новости и полезные статьи про искусственный интеллект и машинное обучение

Gemini 3.5 Live Translate: мгновенный перевод реальным голосом

Google запустили Gemini 3.5 Live Translate – передовую ИИ-модель, которая обеспечивает непрерывный голосовой перевод более чем на 70 языках. В отличие от традиционных инструментов, система переводит речь непосредственно во время диалога, позволяя вести естественное общение и сохраняя интонацию голоса и темп говорящего.

Искусственный интеллект научился понимать лай собак

ИИ научился расшифровывать собачий лай, отличая игривый лай от агрессивного, а также определять возраст, пол и породу собаки. Изначально обученные на человеческой речи, модели ИИ достигли впечатляющей точности и обещают значительные улучшения в коммуникации и уходе за животными.

BASE TTS: сила модели с миллиардом параметров для преобразования текста в речь

Amazon представил модель TTS с инновационной архитектурой, которая устанавливает новый стандарт для синтеза речи. BASE TTS не только обеспечивает непревзойденную естественность речи, но и демонстрирует чрезвычайную адаптивность в обработке различных языковых нюансов.

SeamlessM4T от Meta: общение без языковых барьеров

SeamlessM4T разрушает языковые барьеры благодаря своим комплексным возможностям перевода и транскрипции. Эта модель ИИ может легко преобразовать язык или текст, обеспечивая перевод в режиме реального времени и способствуя межкультурному взаимопониманию.

Генеративный искусственный интеллект преобразует виртуальных персонажей

Генеративный искусственный интеллект трансформирует мир компьютерных игр, преобразуя виртуальных персонажей и улучшая их навыки общения. NVIDIA Avatar Cloud Engine (ACE) позволяет разработчикам наделять неигровых персонажей интеллектом, тем самым изменяя игровой процесс и расширяя границы возможного.

Использование звука для моделирования местности

Исследователи Массачусетского технологического института разработали метод машинного обучения, который точно улавливает и моделирует основную акустику местности, используя лишь небольшое количество звукозаписей.

W2V-BERT: Объединение контрастивного обучения и языка моделирования с маской для самоконтролируемого предварительного обучения речи

Мотивированные успехом моделирования масочного языка (MLM) в предварительном обучении моделей обработки естественного языка до обучения, авторы предлагают модель w2v-BERT, которая исследует MLM для самостоятельного обучения представлению речи.