QuData Новини| Все про голосові технології: голосові помічники, розпізнавання мови

12 Червня, 2026

Gemini 3.5 Live Translate: миттєвий переклад реальним голосом

Google запустили Gemini 3.5 Live Translate – вдосконалену ШІ-модель, яка забезпечує безперервний голосовий переклад понад 70 мовами. На відміну від традиційних інструментів, система перекладає мовлення під час живого спілкування, дозволяючи вести природний діалог та зберігаючи інтонацію голосу і темп мовця.

ДІЗНАТИСЯ БІЛЬШЕ

20 Червня, 2024

Штучний інтелект навчився розуміти гавкіт собак

ШІ навчився розшифровувати собачий гавкіт, відрізняючи грайливий гавкіт від агресивного, а також визначати вік, стать і породу собаки. Спочатку навчені на людській мові, моделі ШІ досягли вражаючої точності і обіцяють значні покращення в комунікації та догляді за тваринами.

ДІЗНАТИСЯ БІЛЬШЕ

23 Травня, 2024

Нова ера мультимодального ШІ з GPT-4o

Компанія OpenAI презентувала GPT-4о – унікальну омнімодель, яка поєднує обробку тексту, звуку та зображень, що дозволяє їй працювати швидше та ефективніше, ніж будь-коли раніше.

ДІЗНАТИСЯ БІЛЬШЕ

22 Лютого, 2024

BASE TTS: сила моделі з мільярдом параметрів для перетворення тексту на мову

Amazon представив модель TTS з інноваційною архітектурою, яка встановлює новий стандарт для синтезу мовлення. BASE TTS не тільки забезпечує неперевершену природність мовлення, але й демонструє надзвичайну адаптивність у обробці різноманітних мовних нюансів.

ДІЗНАТИСЯ БІЛЬШЕ

1 Вересня, 2023

SeamlessM4T від Meta: спілкування без мовних бар’єрів

SeamlessM4T руйнує мовні бар'єри завдяки своїм комплексним можливостям перекладу та транскрипції. Ця модель ШІ може легко перетворити мову або текст, забезпечуючи переклад у режимі реального часу та сприяючи міжкультурному взаєморозумінню.

ДІЗНАТИСЯ БІЛЬШЕ

14 Червня, 2023

Генеративний штучний інтелект покращує віртуальних персонажів

Генеративний штучний інтелект революціонізує світ ігор, розвиваючи віртуальних персонажів та покращуючи їхні навички спілкування. NVIDIA Avatar Cloud Engine (ACE) дозволяє розробникам наділяти неігрових персонажів інтелектом, змінюючи ігровий процес та розширюючи межі можливого.

ДІЗНАТИСЯ БІЛЬШЕ

19 Січня, 2023

Модель синтезу мови - VALL-E може відтворювати голос із трисекундного аудіозапису

Моделі синтезу мови зазвичай потребують тривалих зразків аудіофайлів для опрацювання, тоді як VALL-E імітує голос усього за декілька секунд звукозапису.

ДІЗНАТИСЯ БІЛЬШЕ

14 Листопада, 2022

Використання звуку для моделювання місцевості

Дослідники з Массачусетського технологічного інституту розробили техніку машинного навчання, яка точно фіксує та моделює основну акустику місцевості лише з невеликої кількості звукових записів.

ДІЗНАТИСЯ БІЛЬШЕ

3 Вересня, 2021

W2V-BERT: Поєднання контрастного навчання та моделювання мови з маскою для самостійного навчання мовлення

Мотивовані успіхом маскового мовного моделювання (МЛМ) в допідготовлених моделях обробки природної мови перед навчанням, автори пропонують модель w2v-BERT, яка досліджує МЛМ для самонавчального мовного представлення.

ДІЗНАТИСЯ БІЛЬШЕ