Google: Gemini 3.5 Live Translate с переводом речи в реальном времени

Google анонсировала Gemini 3.5 Live Translate — новую аудиомодель, разработанную для почти реального времени перевода речи в речь более чем на 70 языках. Компания утверждает, что модель может автоматически распознавать языки и генерировать переведённую речь, сохраняя тембр, темп и высоту звука говорящего. (Moneycontrol)

Это объявление стало последним шагом Google в расширении возможностей живого перевода в своих продуктах и сервисах. Gemini 3.5 Live Translate внедряется для разработчиков через Gemini Live API и Google AI Studio, а корпоративные клиенты получат доступ через Google Meet. Эта функция также становится доступна пользователям через приложение Google Translate на Android и iOS.

Как работает Gemini 3.5 Live Translate

По данным Google, новая модель переводит речь непрерывно, а не ждёт, пока говорящий закончит предложение. Этот подход направлен на сокращение пауз и поддержание естественного течения разговоров во время многоязычных взаимодействий.

Модель поддерживает более 70 языков и разработана для работы в шумных условиях. Google утверждает, что разработчики могут использовать его для таких приложений, как живой перевод во время встреч, уроков, трансляций, взаимодействия с клиентами и многоязычных звонков.

Компания также сотрудничала с несколькими платформами разработчиков, включая Agora, Fishjam, LiveKit, Pipecat и Vision Agents, чтобы помочь разработчикам интегрировать технологию в свои собственные приложения.

Переход к Google Meet и Переводчику

Google заявила, что перевод речи в Google Meet вскоре будет работать на Gemini 3.5 Live Translate. Обновление расширит поддержку языков с пяти до более чем 70 и позволит использовать более 2000 языковых комбинаций во время встреч. Также внедряется обновлённый интерфейс для более быстрого доступа к функциям перевода.

Интеграция Meet выходит в частный предварительный просмотр для некоторых бизнес-клиентов Google Workspace в этом месяце, а более широкое развертывание запланировано позже в этом году.

Для потребителей модель внедряется по всему миру через приложение Google Translate на Android и iOS. Пользователи могут подключать наушники и получать доступ к живому переводу, сохраняя при этом голосовые характеристики говорящего.

Google также вводит новый режим прослушивания для пользователей Android. Эта функция позволяет воспроизводить перевод аудио напрямую через наушник телефона, позволяя слушать переводы наедине без необходимости в наушниках.

Меры безопасности

Google сообщил, что весь аудиофайл, генерируемый Gemini 3.5 Live Translate, имеет водяные знаки с использованием SynthID. Компания утверждает, что водяной знак встроен в сгенерированное аудио, чтобы помочь выявлять контент, созданный ИИ, и снижать риск дезинформации.

Сценарий от MC Tech Desk

(в пересказе)

Мнение авторов может не совпадать с мнением редакции. Cообщество журналистов. Non profit