Un nouveau benchmark vient d’être mis en place pour évaluer les performances des grands modèles de langage (LLM) dans l’exécution de tâches sur le web. L’initiative, présentée sur une plateforme de discussions techniques, vise à mesurer la capacité de ces modèles à accomplir des actions en ligne complexes, un domaine en pleine expansion pour l’automatisation.

Un test d’aptitudes pratiques Contrairement aux benchmarks traditionnels qui se concentrent sur des questions de culture générale ou de raisonnement, ce nouveau test se focalise sur des compétences pratiques : navigation sur des sites, remplissage de formulaires, extraction d’informations, ou encore interaction avec des interfaces web. Les modèles sont évalués sur leur capacité à comprendre des instructions en langage naturel et à les traduire en une série d’actions aboutissant à un résultat concret.

Détails du benchmark Le benchmark, dont la méthodologie a été partagée en ligne, ne précise pas encore la liste exacte des modèles testés ni les scores obtenus. Il s’agit à ce stade d’une présentation du cadre d’évaluation, destiné à la communauté des développeurs et des chercheurs. Les créateurs du test espèrent qu’il permettra de mieux cerner les forces et les faiblesses des LLM dans un contexte d’utilisation pratique et non plus seulement théorique.

Enjeux pour l’automatisation web Cette initiative intervient alors que de nombreuses entreprises cherchent à intégrer des agents conversationnels ou des assistants virtuels capables d’effectuer des tâches à la place des humains. La capacité à interagir directement avec des pages web, sans passer par une API dédiée, est considérée comme un pas important vers une automatisation plus généralisée. Les résultats de ce type de benchmark pourraient orienter les choix techniques des développeurs et influencer la conception des futurs modèles.

Un domaine en évolution rapide Le domaine de l’évaluation des compétences des LLM évolue rapidement. De nouveaux benchmarks apparaissent régulièrement pour tester des aspects spécifiques, comme la capacité à raisonner, à coder, ou, comme ici, à agir sur le web. La mise à disposition de ces outils permet à la communauté de suivre les progrès des modèles et d’identifier les axes d’amélioration prioritaires. Ce nouveau benchmark s’inscrit dans cette dynamique, en proposant une mesure plus proche des usages concrets.