Une équipe de chercheurs a publié un article décrivant FML-Bench, un banc d’essai conçu pour évaluer de manière contrôlée les stratégies des agents de recherche en intelligence artificielle (IA). Les travaux, soumis le 17 mai 2026, visent à comprendre quels choix stratégiques déterminent la performance dans l’automatisation de la recherche en apprentissage automatique.
Un banc d’essai séparant stratégie et infrastructure
FML-Bench propose 18 tâches de recherche fondamentales en apprentissage automatique, réparties sur dix domaines. Sa caractéristique principale est de dissocier la stratégie de l’agent (par exemple, la topologie de recherche) de son infrastructure d’exécution (comme l’éditeur de code). Cette séparation permet d’attribuer les différences de performance à la stratégie elle-même plutôt qu’à l’environnement technique. De plus, le banc définit douze indicateurs comportementaux au niveau du processus, offrant une analyse fine des comportements d’exploration au-delà des simples scores finaux.
Six agents testés, des résultats surprenants
Les auteurs ont évalué six agents représentatifs. Leur principale constatation est que la complexité de la stratégie ne garantit pas une meilleure performance. Un agent simple utilisant une remontée de gradient (greedy hill-climber) atteint des résultats presque équivalents au meilleur agent basé sur la recherche dans un arbre (tree search), tous deux surpassant nettement les quatre autres agents.
Le rôle de la structure des opportunités d’amélioration
L’analyse suggère un lien entre ce résultat et la structure des opportunités d’amélioration. La remontée de gradient est plus efficace lorsque les opportunités sont denses, tandis que les stratégies de recherche arborescente et d’optimisation évolutionnaire le sont davantage lorsque les opportunités sont rares. Forts de cette observation, les chercheurs ont construit un agent adaptatif qui élargit son exploration dès qu’il détecte une stagnation de l’amélioration. Cet agent surpasse les six autres, apportant un soutien préliminaire à cette hypothèse.
Des indicateurs de processus révélateurs
L’analyse au niveau du processus révèle que la convergence précoce et l’exploration directionnellement concentrée sont fortement associées à la performance finale. En revanche, la diversité des solutions et le coût de calcul n’apparaissent pas comme des facteurs déterminants. Le code du banc d’essai est accessible en ligne.
Implications pour la recherche en IA
Ces travaux pourraient orienter le développement d’agents de recherche plus efficaces en montrant qu’il n’est pas toujours nécessaire d’opter pour des stratégies complexes. L’adaptation dynamique de la stratégie en fonction de la densité des opportunités semble une piste prometteuse. Les chercheurs soulignent toutefois que ces résultats sont préliminaires et appellent à des études complémentaires.