Un constat inédit sur la durée de vie des agents IA
Les agents d’intelligence artificielle déployés en continu sont aujourd’hui évalués comme des modèles fraîchement initialisés, ignorant une réalité fondamentale : leur fiabilité s’érode avec le temps. Une équipe de chercheurs de l’Université du Texas à Austin (UT Austin) propose un nouveau cadre pour mesurer et diagnostiquer ce phénomène, baptisé AgingBench. Présenté dans une publication scientifique et accessible via un site dédié, ce benchmark longitudinal vise à répondre à trois questions : combien de temps un agent reste-t-il fiable, comment sa fiabilité se dégrade-t-elle, et où doit-on cibler les réparations ?
Quatre mécanismes de vieillissement identifiés
AgingBench classe les modes de défaillance en quatre catégories. Le « compression aging » (vieillissement par compression) survient lorsque la synthèse des interactions passées élimine des détails importants avant que les futures requêtes ne soient connues. Le « interference aging » (vieillissement par interférence) se produit quand l’accumulation d’informations similaires noie le fait ciblé lors de la récupération en mémoire. Le « revision aging » (vieillissement par révision) traduit l’incapacité de l’agent à suivre les changements de vérité, notamment pour des états dynamiques comme un budget ou un compteur. Enfin, le « maintenance aging » (vieillissement par maintenance) résulte d’événements opérationnels tels que le vidage de l’historique ou le remplacement de modèle, provoquant des chutes brutales de performance.
Des résultats chiffrés qui alertent
Les expériences menées sur sept scénarios, quatorze modèles et environ quatre cents sessions (de huit à deux cents répétitions) montrent des dégradations significatives. La chute maximale du rappel (recall) atteint 85 % en dix sessions avec des poids gelés et un même échafaudage (S7, GPT-4o-mini, OpenHands). L’écart de demi-vie entre politiques de mémoire atteint un facteur 4,5 – plus grand que n’importe quel changement de modèle (S1, compaction soigneuse contre perte). Un seul événement de vidage d’historique provoque une chute de 67 % de la performance sans récupération (S6 naturaliste). Claude Code 4.7 obtient une baisse moyenne du taux de réussite des tests pytest de 15 % par rapport à Claude Code 4.6 (Sonnet-4.6 contre Opus-4.7 sur S7).
Un diagnostic ciblé au-delà de la simple évaluation
AgingBench ne se limite pas à constater la dégradation : il propose des « sondes contrefactuelles » et des graphes de dépendance temporelle pour identifier précisément l’étape défaillante dans le pipeline mémoire (écriture, récupération, utilisation ou cycle de vie). Les chercheurs soulignent que le vieillissement n’est pas unidimensionnel : des tests comportementaux peuvent rester propres tandis que la précision factuelle se dégrade, et le suivi d’états dérivés peut s’effondrer soudainement au sein d’un même modèle. Ainsi, un même résultat erroné peut nécessiter des réparations différentes selon le profil diagnostique.
Disponibilité et perspectives
Le projet AgingBench est publié sous la forme d’un article scientifique (arXiv), d’un code source ouvert (GitHub), d’un classement en ligne (leaderboard) et d’un site documenté. Les chercheurs appellent à la collaboration : ils recherchent des partenaires disposant de traces d’agents en production, des sponsors pour des benchmarks à plus grande échelle, et des contributeurs pour de nouveaux scénarios. L’équipe est composée de Jianing Zhu, Yeonju Ro, John T. Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella et Zhangyang « Atlas » Wang, tous affiliés à l’Université du Texas à Austin.