Un pas vers l'IA agentique sur les terminaux personnels

Google continue d'étendre les capacités de son intelligence artificielle Gemini. La version 3.5 Flash du modèle, déjà connue pour sa rapidité d'exécution, intègre désormais un outil baptisé « Computer Use ». Cette fonction permet à l'IA de manipuler directement les interfaces graphiques des ordinateurs et des smartphones, à l'instar d'un utilisateur humain.

Selon les informations diffusées par la firme de Mountain View, cette nouvelle fonctionnalité repose sur une approche agentique : Gemini 3.5 Flash est capable d'analyser visuellement ce qui s'affiche à l'écran, d'en tirer des raisonnements contextuels, puis d'exécuter des actions en conséquence. Concrètement, l'assistant peut désormais cliquer, taper du texte, faire défiler des pages ou encore ouvrir des applications, le tout en fonction des instructions données.

Un saut qualitatif dans l'assistance numérique

L'introduction de Computer Use marque une évolution notable par rapport aux assistants vocaux classiques, qui se limitaient jusqu'à présent à des commandes prédéfinies ou à des réponses textuelles. Avec cette capacité, Gemini 3.5 Flash peut effectuer des tâches plus complexes, telles que remplir un formulaire en ligne, naviguer dans les paramètres d'un logiciel ou encore orchestrer un enchaînement d'opérations sur plusieurs applications.

Google décrit cette innovation comme la capacité pour l'IA de « voir, de raisonner et d'agir ». Ce triplet d'aptitudes rapproche le modèle d'un véritable agent autonome, capable de s'adapter à des environnements numériques variés sans nécessiter d'intégration spécifique de la part des développeurs. L'outil fonctionnerait en analysant en temps réel les pixels de l'écran, en interprétant les éléments graphiques (boutons, menus, champs de saisie) pour décider de la prochaine action.

Disponibilité et perspectives

La date de déploiement de Computer Use au sein de Gemini 3.5 Flash n'a pas été précisée par Google. Toutefois, les premiers tests internes suggèrent que la fonction est opérationnelle sur les systèmes d'exploitation les plus courants, tant mobiles que fixes. Aucune information n'a encore filtré sur une éventuelle extension aux objets connectés, comme les enceintes Google Home, mais la logique agentique pourrait à terme être adaptée à d'autres plateformes.

Cette annonce intervient dans un contexte où les grandes entreprises technologiques accélèrent leurs travaux sur des agents IA capables d'interagir avec le monde numérique de manière plus naturelle et plus humaine. Avec Computer Use, Google prend une longueur d'avance sur la concurrence en offrant à son modèle phare la possibilité de manipuler directement les interfaces utilisateur, une fonction qui était jusqu'alors souvent cantonnée aux robots logiciels spécialisés.

Implications pour l'utilisateur

Pour l'utilisateur lambda, cette innovation pourrait transformer la manière d'interagir avec ses appareils. Au lieu de dicter des commandes vocales ou de chercher manuellement une option dans un menu, il suffirait de décrire l'objectif à Gemini 3.5 Flash, qui se chargerait des manipulations intermédiaires. Cela ouvre la voie à une délégation plus poussée des tâches numériques, avec un gain de temps potentiel considérable.

Cependant, cette capacité soulève également des questions en matière de sécurité et de confidentialité. Le fait qu'un agent IA puisse interagir librement avec l'écran implique un accès étendu aux données affichées, y compris des informations sensibles. Google n'a pas encore communiqué sur les mesures de protection qui encadreront cette fonction, mais il est probable que des permissions granulaires seront exigées pour chaque action.

Vers une généralisation de l'agent IA

L'ajout de Computer Use à Gemini 3.5 Flash s'inscrit dans la feuille de route plus large de Google visant à faire de son IA un assistant omniprésent, capable non seulement de répondre à des questions, mais aussi d'agir concrètement dans l'environnement numérique de l'utilisateur. Ce développement renforce la position de la société dans la course aux agents intelligents, aux côtés d'acteurs comme OpenAI ou Anthropic.

Les prochaines semaines devraient apporter davantage de précisions sur les conditions de déploiement de cette fonction et sur les appareils compatibles. En attendant, les observateurs saluent une avancée technique significative qui pourrait redéfinir les standards de l'assistance personnelle assistée par intelligence artificielle.