AgingBench : un benchmark pour la fiabilité des agents IA dans le temps

Un constat inédit sur la durée de vie des agents IA

Les agents d’intelligence artificielle déployés en continu sont aujourd’hui évalués comme des modèles fraîchement initialisés, ignorant une réalité fondamentale : leur fiabilité s’érode avec le temps. Une équipe de chercheurs de l’Université du Texas à Austin (UT Austin) propose un nouveau cadre pour mesurer et diagnostiquer ce phénomène, baptisé AgingBench. Présenté dans une publication scientifique et accessible via un site dédié, ce benchmark longitudinal vise à répondre à trois questions : combien de temps un agent reste-t-il fiable, comment sa fiabilité se dégrade-t-elle, et où doit-on cibler les réparations ?

Quatre mécanismes de vieillissement identifiés

AgingBench classe les modes de défaillance en quatre catégories. Le « compression aging » (vieillissement par compression) survient lorsque la synthèse des interactions passées élimine des détails importants avant que les futures requêtes ne soient connues. Le « interference aging » (vieillissement par interférence) se produit quand l’accumulation d’informations similaires noie le fait ciblé lors de la récupération en mémoire. Le « revision aging » (vieillissement par révision) traduit l’incapacité de l’agent à suivre les changements de vérité, notamment pour des états dynamiques comme un budget ou un compteur. Enfin, le « maintenance aging » (vieillissement par maintenance) résulte d’événements opérationnels tels que le vidage de l’historique ou le remplacement de modèle, provoquant des chutes brutales de performance.

Des résultats chiffrés qui alertent

Les expériences menées sur sept scénarios, quatorze modèles et environ quatre cents sessions (de huit à deux cents répétitions) montrent des dégradations significatives. La chute maximale du rappel (recall) atteint 85 % en dix sessions avec des poids gelés et un même échafaudage (S7, GPT-4o-mini, OpenHands). L’écart de demi-vie entre politiques de mémoire atteint un facteur 4,5 – plus grand que n’importe quel changement de modèle (S1, compaction soigneuse contre perte). Un seul événement de vidage d’historique provoque une chute de 67 % de la performance sans récupération (S6 naturaliste). Claude Code 4.7 obtient une baisse moyenne du taux de réussite des tests pytest de 15 % par rapport à Claude Code 4.6 (Sonnet-4.6 contre Opus-4.7 sur S7).

Un diagnostic ciblé au-delà de la simple évaluation

AgingBench ne se limite pas à constater la dégradation : il propose des « sondes contrefactuelles » et des graphes de dépendance temporelle pour identifier précisément l’étape défaillante dans le pipeline mémoire (écriture, récupération, utilisation ou cycle de vie). Les chercheurs soulignent que le vieillissement n’est pas unidimensionnel : des tests comportementaux peuvent rester propres tandis que la précision factuelle se dégrade, et le suivi d’états dérivés peut s’effondrer soudainement au sein d’un même modèle. Ainsi, un même résultat erroné peut nécessiter des réparations différentes selon le profil diagnostique.

Disponibilité et perspectives

Le projet AgingBench est publié sous la forme d’un article scientifique (arXiv), d’un code source ouvert (GitHub), d’un classement en ligne (leaderboard) et d’un site documenté. Les chercheurs appellent à la collaboration : ils recherchent des partenaires disposant de traces d’agents en production, des sponsors pour des benchmarks à plus grande échelle, et des contributeurs pour de nouveaux scénarios. L’équipe est composée de Jianing Zhu, Yeonju Ro, John T. Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella et Zhangyang « Atlas » Wang, tous affiliés à l’Université du Texas à Austin.

AgingBench : un nouveau banc d’essai pour mesurer la fiabilité des agents IA dans le temps

À lire ensuite

Des pages de panne factices hébergées via les liens de partage de ChatGPT servent à diffuser des logiciels mal...

Quantinuum, soutenu par Honeywell, vise 1,05 milliard de dollars avec son introduction en Bourse

Réseau d'agents chinois aux États-Unis : une enquête inédite dévoile l'ampleur de l'infiltration

La fusée New Glenn de Blue Origin détruite lors d'un essai : un revers majeur pour Amazon et la Nasa