Gemini 3.5 Live Translate: мгновенный перевод реальным голосом
Компания Google представила Gemini 3.5 Live Translate – новую модель перевода “голос в голос” на базе искусственного интеллекта, созданную для обеспечения практически мгновенного общения между людьми, говорящими на разных языках. Эта технология является весомым вкладом в сферу перевода в режиме реального времени, обеспечивая более естественное и плавное общение и сохраняя при этом ключевые элементы голоса говорящего, в частности интонацию, темп и высоту голоса.
Запуск модели стал очередной вехой в многолетних усилиях Google по совершенствованию машинного перевода с помощью искусственного интеллекта. По данным компании, Gemini 3.5 Live Translate может автоматически распознавать более 70 языков и генерировать переведенную речь всего через несколько секунд после исходного высказывания, создавая более плавный опыт, чем традиционные пошаговые системы перевода.
В отличие от обычных переводчиков, которые ждут завершения фразы, прежде чем выдать перевод, Gemini 3.5 Live Translate обрабатывает речь непрерывно во время разговора. Такой подход делает общение более естественным, сокращает неловкие паузы и улучшает синхронизацию между собеседниками.
Google отмечает, что модель сочетает в себе скорость перевода с пониманием контекста, помогая сохранять точность и при этом не отставать от живого разговора. Система также разработана для надежной работы в шумной обстановке благодаря фильтрации посторонних звуков и автоматической обработке многоязычной речи без необходимости ручной настройки.
Новая модель перевода внедряется в ряд продуктов и сервисов Google. Разработчики уже могут начать тестировать Gemini 3.5 Live Translate через публичную превью-версию в Gemini Live API и Google AI Studio. Компания отмечает, что технологию можно использовать для создания решений для многоязычных встреч, прямых трансляций, онлайн-уроков, службы поддержки клиентов и сервисов синхронного перевода.
Google также заключил партнерские соглашения с несколькими платформами для разработчиков, в частности Agora, Fishjam, LiveKit, Pipecat и Vision Agents, чтобы упростить внедрение приложений для голосового перевода.
Одним из первых примеров использования стала компания Grab, которая тестирует технологию для упрощения общения между водителями и пассажирами. Платформа обрабатывает более 10 миллионов голосовых звонков ежемесячно и рассчитывает, что новая модель поможет преодолеть языковые барьеры во время поездки пассажиров и взаимодействия с клиентами.
В скором времени корпоративные пользователи увидят интеграцию Gemini 3.5 Live Translate в Google Meet. Компания планирует расширить поддержку с пяти языков до более чем 70, что позволит использовать свыше 2000 языковых комбинаций в рамках одной встречи.
Google также обновляет интерфейс Meet, чтобы обеспечить более быстрый доступ к функциям живого перевода. Обновление уже переходит в фазу закрытого тестирования для отдельных бизнес-клиентов Google Workspace, а более широкий запуск ожидается позднее в этом году.
Пользователи также получат доступ к новой технологии через приложение Google Translate на Android и iOS. Синхронный голосовой перевод будет работать практически с любыми наушниками, поэтому необходимость в специальном оборудовании, таком как Pixel Buds, отпадает.
Для пользователей Android Google добавляет новый режим “прослушивания”, который позволяет воспроизводить переведенное аудио непосредственно через динамик телефона. Достаточно приложить смартфон к уху, как во время обычного звонка, чтобы слушать перевод конфиденциально без наушников.
Поскольку голос, созданный искусственным интеллектом, становится все более реалистичным, Google внедряет дополнительные механизмы безопасности. Каждый аудиопоток, сгенерированный Gemini 3.5 Live Translate, содержит водяной знак SynthID – незаметный маркер, встроенный непосредственно в аудиосигнал.
Такой водяной знак позволяет идентифицировать контент, созданный ИИ, оставаясь при этом неслышимым для пользователей. В Google отмечают, что эта мера призвана помочь в борьбе с дезинформацией и обеспечить большую прозрачность по мере распространения синтезированного аудио.
Благодаря поддержке десятков языков, низкой задержке перевода и интеграции в сервисы Google, Gemini 3.5 Live Translate может приблизить компанию к ее давней цели – обеспечить беспрепятственное общение между людьми независимо от того, на каком языке они разговаривают.