AgingBench : un nouveau banc d’essai pour mesurer la fiabilité des agents IA dans le temps
Des chercheurs de l’Université du Texas à Austin dévoilent AgingBench, un benchmark longitudinal qui révèle comment les agents d’intelligence artificielle se dégradent après déploiement, même lorsque leurs poids sont gelés.
Aditya Akella
AgingBench
Haris Vikalo
Jianing Zhu
John T. Robertson
Junbo Li
Kevin Wang
Université du Texas à Austin
Yeonju Ro
Zhangyang Wang
Évolution chronologique
-
AgingBench : un nouveau banc d’essai pour mesurer la fiabilité des agents IA dans le temps
Le benchmark AgingBench, développé par l’Université du Texas à Austin, mesure la fiabilité des agents d’IA après déploiement. Il identifie quatre mécanismes de dégradation et montr...