Google запустили Gemini 3.5 Live Translate – вдосконалену ШІ-модель, яка забезпечує безперервний голосовий переклад понад 70 мовами. На відміну від традиційних інструментів, система перекладає мовлення під час живого спілкування, дозволяючи вести природний діалог та зберігаючи інтонацію голосу і темп мовця.
ШІ навчився розшифровувати собачий гавкіт, відрізняючи грайливий гавкіт від агресивного, а також визначати вік, стать і породу собаки. Спочатку навчені на людській мові, моделі ШІ досягли вражаючої точності і обіцяють значні покращення в комунікації та догляді за тваринами.
Компанія OpenAI презентувала GPT-4о – унікальну омнімодель, яка поєднує обробку тексту, звуку та зображень, що дозволяє їй працювати швидше та ефективніше, ніж будь-коли раніше.
Amazon представив модель TTS з інноваційною архітектурою, яка встановлює новий стандарт для синтезу мовлення. BASE TTS не тільки забезпечує неперевершену природність мовлення, але й демонструє надзвичайну адаптивність у обробці різноманітних мовних нюансів.
SeamlessM4T руйнує мовні бар'єри завдяки своїм комплексним можливостям перекладу та транскрипції. Ця модель ШІ може легко перетворити мову або текст, забезпечуючи переклад у режимі реального часу та сприяючи міжкультурному взаєморозумінню.
Генеративний штучний інтелект революціонізує світ ігор, розвиваючи віртуальних персонажів та покращуючи їхні навички спілкування. NVIDIA Avatar Cloud Engine (ACE) дозволяє розробникам наділяти неігрових персонажів інтелектом, змінюючи ігровий процес та розширюючи межі можливого.
Моделі синтезу мови зазвичай потребують тривалих зразків аудіофайлів для опрацювання, тоді як VALL-E імітує голос усього за декілька секунд звукозапису.
Дослідники з Массачусетського технологічного інституту розробили техніку машинного навчання, яка точно фіксує та моделює основну акустику місцевості лише з невеликої кількості звукових записів.
Мотивовані успіхом маскового мовного моделювання (МЛМ) в допідготовлених моделях обробки природної мови перед навчанням, автори пропонують модель w2v-BERT, яка досліджує МЛМ для самонавчального мовного представлення.