Une étude systématique remet en cause une hypothèse largement répandue dans le domaine des agents basés sur de grands modèles de langage (LLM). Les chercheurs ont constaté que la sensibilité des modèles à la complexité des consignes – ce qu'ils appellent le « harnais » ou « harness » – ne décroît pas de manière uniforme à mesure que la capacité du modèle augmente. Les résultats, présentés dans un article scientifique, suggèrent au contraire une relation non monotone entre le niveau de performance d'un modèle et la manière dont il réagit aux instructions qui lui sont données.

Une expérience sur 432 configurations

L'étude a été conduite sur 432 configurations expérimentales, croisant six modèles répartis en quatre niveaux de capacité avec trois types de conditions de « harnais » : léger, équilibré et strict. Les modèles ont été évalués sur le banc d'essai synthétique HEAT-24, qui comprend 24 tâches et utilise une vérification d'espace de travail basée sur le système de gestion de versions Git.

Les principaux modèles examinés incluent le modèle conversationnel Gemini 2.5 Flash, le modèle de raisonnement Qwen3.5-122B (avec la réflexion étendue activée), et le modèle de 2 milliards de paramètres Gemma4:e2B. Chaque niveau de capacité n'étant représenté que par un seul modèle, les auteurs précisent que leurs observations doivent être interprétées comme spécifiques à chaque modèle.

Un paradoxe de la complexité du harnais

L'une des découvertes les plus frappantes concerne le modèle Gemini 2.5 Flash, classé comme modèle conversationnel de pointe. Contre toute attente, l'augmentation de la verbosité du harnais a fait chuter le taux de réussite à la vérification des tâches (VTSR) de 29 à 38 points de pourcentage. Les auteurs qualifient ce phénomène de « paradoxe de la complexité du harnais » : un encadrement plus détaillé, censé guider le modèle, dégrade en réalité ses performances.

À l'opposé, le modèle de raisonnement Qwen3.5-122B a montré le comportement inverse. Avec un harnais strict, il a atteint le meilleur VTSR, soit 91,7 %, tout en présentant la latence la plus faible. Ce résultat va à l'encontre de la prédiction qui voudrait qu'un modèle plus performant ait besoin de moins de structure.

Un petit modèle étonnamment stable

L'étude révèle également qu'un modèle de seulement 2 milliards de paramètres, Gemma4:e2B, a affiché une stabilité remarquable dans toutes les conditions de harnais, atteignant également 91,7 % de VTSR. Ce résultat correspond à celui du modèle de raisonnement de pointe dans les conditions les plus strictes, démontrant qu'un modèle de capacité plus modeste peut, dans certaines configurations, égaler la fiabilité de modèles bien plus puissants.

Une taxonomie des échecs

Pour mieux comprendre les mécanismes en jeu, les chercheurs ont introduit une taxonomie des échecs en six catégories. Ils ont observé que les modèles les plus capables échouent principalement en raison de violations de format, tandis que les modèles de faible capacité commettent davantage d'erreurs de type « mauvais fichier ». Cette distinction suggère que les défis posés par le harnais diffèrent fondamentalement selon le niveau du modèle.

Implications pratiques

Ces résultats ont des implications directes pour le déploiement des agents LLM. L'hypothèse dominante jusqu'à présent était qu'un encadrement plus structuré améliore universellement la fiabilité, et que les modèles de plus haute capacité nécessitent proportionnellement moins de guidage structurel, impliquant une relation inverse monotone entre le niveau de capacité et la complexité optimale du harnais. L'étude réfute cette hypothèse sur deux points : d'une part, un modèle conversationnel de pointe peut voir ses performances chuter avec un harnais plus verbeux ; d'autre part, un modèle de raisonnement de pointe bénéficie d'un harnais strict.

Les auteurs en concluent que la sensibilité au harnais n'est pas monotone parmi les modèles évalués et dépend de manière cruciale du type de modèle (conversationnel ou de raisonnement). Ils proposent des recommandations pratiques pour la sélection du harnais en fonction du niveau de capacité, soulignant qu'il n'existe pas de solution universelle.