Alors que de nombreux systèmes d’IA reposent sur des évaluateurs LLM pour noter et corriger les actions d’agents logiciels, la question de leur fiabilité en environnement bruité se posait. Une expérience menée par TensorZero et publiée récemment apporte une réponse contre-intuitive : un évaluateur LLM très bruité – c’est-à-dire sujet à des erreurs fréquentes et aléatoires – reste un outil précieux pour l’amélioration des agents d’IA.

L’étude a consisté à soumettre un agent à une tâche répétée, en utilisant un premier LLM pour évaluer ses performances. Les chercheurs ont ensuite ajouté délibérément du bruit dans l’évaluation, jusqu’à rendre celle-ci quasi aléatoire. Dans tous les cas, l’agent a continué à progresser, parfois même plus rapidement qu’avec un évaluateur parfait. Selon les auteurs, le mécanisme expliquant ce résultat tient au fait que le bruit, bien que dégradant la qualité individuelle des retours, permet d’explorer un plus large spectre de stratégies, évitant la convergence prématurée vers un optimum local.

Mécanisme d’amélioration malgré le bruit Les expériences ont été menées sur des agents effectuant des tâches de raisonnement et de génération de code. L’évaluateur LLM fournissait une note sur une échelle continue. En introduisant un bruit gaussien de plus en plus fort, les performances de l’agent ont d’abord légèrement baissé, puis se sont stabilisées à un niveau élevé. Même avec un bruit équivalent à 200 % de l’échelle de notation (soit une corrélation quasi nulle avec la performance réelle), l’agent a continué à s’améliorer. Les chercheurs expliquent ce phénomène par un compromis entre exploitation (suivre les retours les plus fiables) et exploration (essayer des actions différentes malgré des retours erratiques). En forçant l’agent à ne pas se fier uniquement à des signaux trop parfaits, le bruit l’incite à découvrir des stratégies plus robustes.

Implications pour le développement des agents Cette découverte pourrait avoir des conséquences importantes pour la conception d’agents d’IA autonomes. Traditionnellement, les équipes de développement consacrent des efforts considérables à réduire le bruit des évaluateurs, par exemple en entraînant des modèles spécifiques ou en utilisant des méthodes d’ensemble. L’étude de TensorZero suggère que ces investissements pourraient être en partie superflus, et qu’il peut être plus efficace d’accepter un certain niveau de bruit pour bénéficier de son effet exploratoire. Les auteurs notent toutefois que ce résultat dépend de la nature de la tâche et de l’algorithme d’apprentissage utilisé, et que des travaux supplémentaires sont nécessaires pour généraliser ces conclusions.

Pistes pour la recherche et l’industrie Les chercheurs recommandent de ne pas éliminer systématiquement tout bruit dans les évaluateurs LLM, mais de l’ajuster comme un hyperparamètre. Des systèmes trop bruités pourraient ralentir l’apprentissage, tandis qu’un bruit modéré pourrait l’accélérer. L’étude ouvre également la voie à des mécanismes de contrôle adaptatif du bruit, où l’agent augmenterait délibérément le bruit de l’évaluateur dans certaines phases d’exploration, puis le réduirait lorsqu’il doit affiner une stratégie prometteuse. Les expériences ont montré que cette approche dite de « bruit adaptatif » surpassait à la fois les stratégies sans bruit et celles avec un bruit constant.

En conclusion, contrairement à une intuition répandue, un évaluateur LLM même très bruité n’est pas seulement tolérable, mais peut constituer un atout pour l’amélioration des agents d’IA. Ce résultat invite à repenser les pratiques d’évaluation dans le domaine et à explorer davantage le rôle du bruit dans l’apprentissage automatique.