Google a officialisé le déploiement de Gemini 3.5 Live Translate, un modèle audio conçu pour la traduction simultanée de conversations en temps réel. L'annonce, faite ce mercredi 10 juin 2026, marque une avancée significative dans le domaine de la traduction automatique, avec une prise en charge dépassant les 70 langues détectées automatiquement.
Contrairement aux solutions traditionnelles qui nécessitent d'attendre la fin d'une phrase pour obtenir une traduction, Gemini 3.5 Live Translate traite le flux vocal en continu. L'outil produit une voix synthétique qui conserve l'intonation, le rythme et la hauteur de la voix du locuteur original, évitant ainsi l'effet de « voix de robot ». Un décalage de quelques secondes demeure, comparable au temps de réflexion d'un traducteur humain, afin d'évaluer le contexte et d'assurer une fluidité optimale.
Déploiement dans l'écosystème Google
Les premiers services à bénéficier de cette innovation sont les applications de l'écosystème Google. Google Meet peut désormais gérer des réunions impliquant plus de 2 000 combinaisons linguistiques, contre cinq langues auparavant (et uniquement avec l'anglais comme base de traduction). L'application Google Traduction, sur Android et iOS, reçoit également cette mise à jour. Pour les utilisateurs d'écouteurs, la traduction est diffusée directement dans les oreilles, toujours en respectant le ton de l'interlocuteur. Sur Android, un nouveau « mode écoute » permet de tenir le téléphone à l'oreille, comme lors d'un appel classique, pour entendre la traduction sans qu'elle ne soit audible pour l'entourage.
API et partenariats
Les développeurs peuvent accéder à ces fonctionnalités via l'API Gemini Live pour créer leurs propres applications de traduction. Des entreprises partenaires, comme la plateforme de transport Grab, testent déjà le modèle pour faciliter la communication entre les chauffeurs et les passagers.
Prévention des dérives
Afin de lutter contre les usages frauduleux, Google intègre SynthID, un « tatouage numérique » intégré dans le signal audio. Cette technologie permet de vérifier si un contenu généré provient d'une intelligence artificielle.
Détection automatique et robustesse
L'outil détecte automatiquement plus de 70 langues, éliminant la nécessité de sélectionner manuellement la langue de l'interlocuteur. Il a également été entraîné à fonctionner en présence de bruits ambiants susceptibles de perturber la traduction.