Stateful Inference : un nouveau paradigme pour les agents multi-outils à faible latence

Un article de recherche récemment déposé sur arXiv (référence 2605.26289) propose un nouveau paradigme pour l'exécution d'agents artificiels : « Stateful Inference for Low-Latency Multi-Agent Tool Calling » (Inférence avec état pour l'appel d'outils multi-agents à faible latence). Ce travail vise à résoudre un problème central dans le déploiement de systèmes multi-agents : la latence accumulée lors d'appels d'outils successifs, chaque requête nécessitant de retraiter un historique complet plutôt que de conserver un état intermédiaire.

Un problème de passage à l'échelle

Dans les architectures classiques d'agents LLM, chaque appel à un outil (recherche dans une base de données, envoi d'un message, exécution d'un calcul) impose de renvoyer au modèle l'intégralité du contexte conversationnel et des résultats précédents. Pour des scénarios multi-agents, où plusieurs agents spécialisés collaborent en chaîne, cette répétition engendre une latence importante et une consommation accrue de ressources (token, mémoire, calcul).

La solution proposée : une inférence « stateful »

L'article introduit un mécanisme d'inférence avec état, qui conserve un contexte interne persistant entre les appels successifs. Au lieu de reconstruire l'historique à chaque étape, les agents peuvent s'appuyer sur un état mis à jour en continu, qui intègre les résultats des appels d'outils sans nécessiter une re-soumission complète. Les auteurs décrivent une architecture qui sépare la gestion de l'état (state management) du flux de décision, permettant à chaque agent de récupérer instantanément les informations pertinentes de l'étape précédente.

Conséquences attendues sur la latence

Selon la prépublication, cette approche réduit significativement la latence dans les chaînes d'appels d'outils, en éliminant la redondance de traitement. Les expériences rapportées montrent des gains de performance, en particulier lorsque le nombre d'outils appelés par agent est élevé. Une réduction du nombre de tokens consommés est également observée, car le contexte historique n'est plus réinséré à chaque requête.

Implications pour les systèmes multi-agents

Cette contribution s'inscrit dans le domaine plus large du développement d'agents LLM capables de planifier et d'exécuter des actions complexes (tool calling). L'inférence stateful pourrait permettre des interactions plus naturelles et réactives, où chaque agent conserve une « mémoire » de son état et de celui des autres agents sans surcoût de communication. Les auteurs soulignent que ce mécanisme est compatible avec les paradigmes de planification existants, mais qu'il reste à valider sur des benchmarks standardisés de coordination multi-agents.

Réception et perspectives

À ce stade, il s'agit d'une prépublication en cours d'évaluation. La discussion sur Hacker News (identifiant 48292992) mentionne quelques commentaires initiaux, mais le travail n'a pas encore fait l'objet de répliques ou de validations approfondies par la communauté. Les auteurs espèrent que cette approche ouvrira la voie à des applications industrielles telles que des assistants multi-compétences, des pipelines de traitement de données autonomes ou des systèmes de contrôle robotique collaboratif.

Un nouvel article arXiv propose « Stateful Inference » pour optimiser l'appel d'outils multi-agents à faible latence

À lire ensuite

L’administration Trump envisagerait une trêve de 60 jours avec l’Iran, Dell s’envole en Bourse

SpaceX décroche un contrat de 4 milliards de dollars pour le réseau de satellites Golden Dome

En Corée du Sud, le boom de l’intelligence artificielle provoque un débat sur le partage des richesses technol...

Des pages de panne factices hébergées via les liens de partage de ChatGPT servent à diffuser des logiciels mal...