Mini-SWE-agent : 74 % sur SWE-bench avec 100 lignes de…

Un nouvel agent d’intelligence artificielle, baptisé mini-SWE-agent, a obtenu un score supérieur à 74 % sur le benchmark SWE-bench, un test reconnu pour évaluer la capacité des systèmes à résoudre des tâches réelles de génie logiciel. Développé par les chercheurs des universités Princeton et Stanford, cet agent se distingue par sa simplicité radicale : il tient en une centaine de lignes de code Python et n’utilise que l’interface bash, sans recourir à des outils spécialisés ni à des fonctions de rappel (tool calling).

Une conception minimaliste mais performante

Contrairement aux agents plus complexes qui nécessitent des dépendances lourdes et des interfaces sophistiquées, mini-SWE-agent repose sur une architecture linéaire. Chaque étape de l’agent ajoute simplement un message à l’historique, sans traitement parallèle ni gestion d’état de session. Les actions sont exécutées via subprocess.run, chaque commande étant indépendante. Cette approche facilite le débogage, l’entraînement par ajustement fin, et permet de faire fonctionner l’agent avec n’importe quel modèle de langage, y compris ceux qui ne prennent pas en charge les appels d’outils.

L’agent est également conçu pour fonctionner dans des environnements cloisonnés (sandbox), sans nécessiter l’installation de paquets supplémentaires. Il supporte de multiples environnements : local, Docker, Podman, Singularity/Apptainer, Bubblewrap, Contree, et d’autres.

Adoption large et compatibilité étendue

Selon l’équipe de développement, mini-SWE-agent est déjà utilisé par plusieurs grandes entreprises et institutions, notamment Meta, NVIDIA, Essential AI, IBM, Nebius, Anyscale, Princeton University et Stanford University. Il est compatible avec tous les modèles de langage via les bibliothèques LiteLLM, OpenRouter, Portkey, et prend en charge les endpoints /completion et /response, ainsi que le raisonnement entrelacé (interleaved thinking).

Disponible sur GitHub et via le gestionnaire de paquets PyPI, l’agent est présenté comme une alternative légère et performante à des outils comme Claude Code, avec un temps de démarrage bien plus court.

Implications pour la recherche

Les chercheurs soulignent que mini-SWE-agent illustre une évolution notable dans le domaine des agents IA : un an après le lancement de SWE-agent, qui avait mis l’accent sur des outils et interfaces complexes, il apparaît qu’une grande partie de cette sophistication n’est pas nécessaire. Leur outil montre qu’un agent dépouillé, sans fioritures, peut atteindre des niveaux de performance comparables, ouvrant la voie à des systèmes plus frugaux et plus faciles à auditer.

Le mini-SWE-agent est présenté comme la version 2 de l’outil, avec une documentation et un guide de migration disponibles pour les utilisateurs de la version précédente.

Un agent IA minimaliste atteint 74 % de réussite sur le benchmark SWE-bench avec seulement 100 lignes de code Python

À lire ensuite

Reddit renforce sa lutte contre les bots en recourant à l'intelligence artificielle

L'administration Trump restreint la protection des habitats d'espèces menacées

Erling Haaland, phénomène viral de la Coupe du monde, entre deepfakes et adoration des foules

Pénurie d'hélium : la Chine suspend ses exportations, un nouveau choc pour l'industrie des semi-conducteurs