Google a officialisé le lancement de Gemini 3.5 Live Translate, un modèle d'intelligence artificielle capable d'effectuer une traduction de la parole à la parole en quasi temps réel. L'annonce, faite en juin 2026, élargit considérablement l'accès à une fonctionnalité que l'entreprise perfectionne depuis plusieurs années.

Ce nouveau modèle fait partie de la famille Gemini 3.5, dont la version Flash avait été dévoilée lors de la conférence Google I/O en mai 2026. Gemini 3.5 Live Translate est spécifiquement conçu pour détecter et traduire automatiquement les échanges vocaux dans plus de 70 langues.

Une fluidité proche de la conversation naturelle

Selon Google, la latence du système est suffisamment faible pour suivre le rythme d'une conversation normale : la traduction s'affiche quelques secondes à peine après que le locuteur a fini de parler. L'une des innovations majeures réside dans la capacité du modèle à reproduire l'intonation, le rythme et la hauteur de la voix d'origine. La société indique que le résultat audio « ressemble davantage à vous qu'à un robot générique », cherchant à offrir un rendu plus naturel que les synthèses vocales traditionnelles.

Déploiement progressif dans l'écosystème Google

Le modèle sera progressivement intégré à plusieurs services de l'entreprise. Les développeurs peuvent dès à présent accéder à une préversion publique via l'API Gemini Live ou AI Studio. Cette interface permet un traitement continu de la parole, sans nécessité de configurer manuellement les entrées multilingues, et intègre un filtrage des bruits ambiants.

Pour les entreprises, une sélection de clients professionnels bénéficiera de la fonctionnalité dans Google Meet dès le mois de juin 2026, avant un déploiement plus large. L'interface de Meet a été modifiée pour placer la traduction en direct au premier plan.

Disponibilité élargie sur mobile

L'application Google Traduction, sur Android comme sur iOS, recevra également la mise à jour. Google avait déjà introduit la traduction en direct basée sur Gemini dans l'application fin 2025, en la rendant accessible avec n'importe quels écouteurs, et non plus uniquement avec les Pixel Buds. Avec Gemini 3.5 Live Translate, cette fonctionnalité s'étend encore : il n'est désormais plus nécessaire d'utiliser des écouteurs. Sur Android, un nouveau « mode écoute » permet de tenir le téléphone à l'oreille, comme lors d'un appel, pour entendre la traduction. Google illustre cette fonction par l'exemple d'un visiteur écoutant la traduction en anglais d'une visite guidée en espagnol directement via l'écouteur de son téléphone.

Sécurité et authenticité des flux audio

Bien que les flux audio générés soient conçus pour sonner de façon naturelle, Google adopte une approche prudente. Tous les enregistrements produits par Gemini 3.5 Live Translate intègrent un filigrane SynthID dans les données de la forme d'onde. Ce marquage identifie la parole comme étant générée par intelligence artificielle, et il n'existe actuellement aucun moyen de le supprimer. Cette mesure vise à prévenir les risques d'usurpation ou de désinformation.

Contexte et perspectives

Ce lancement s'inscrit dans une stratégie de longue date de Google en matière de traduction automatique. La société avait présenté des démonstrations de traduction en temps réel lors de ses conférences, mais celles-ci nécessitaient souvent un matériel spécifique (téléphones Pixel, écouteurs Pixel Buds). L'ouverture à un plus large éventail d'appareils et de services marque une étape importante dans la démocratisation de cette technologie. Un modèle Pro de la gamme Gemini 3.5 est attendu dans les semaines à venir, selon les informations disponibles.