Un nouveau benchmark secoue le classement

La startup Datacurve a dévoilé ce lundi un outil d'évaluation, DeepSWE, destiné à mesurer les performances des modèles d'intelligence artificielle sur des tâches de codage logiciel. Composé de 113 tâches réparties sur 91 dépôts open source et cinq langages de programmation, DeepSWE produit un écart de scores bien plus marqué que les benchmarks existants. Ainsi, GPT-5.5 d'OpenAI arrive en tête avec 70 % de réussite, soit 16 points de plus que son concurrent le plus proche, GPT-5.4 (56 %). Claude Opus 4.7 d'Anthropic suit à 54 %, tandis que Claude Sonnet 4.6 chute à 32 % et que Claude Haiku 4.5 obtient 0 %, alors que ce même modèle affichait 39 % sur SWE-Bench Pro.

Selon Datacurve, cette dispersion de 70 points entre les meilleurs et les moins bons reflète bien mieux la réalité des développeurs que les palmarès habituels, où les modèles se tiennent en général dans une fourchette de 30 points. La coauteure du benchmark, Serena Ge, a expliqué sur X que DeepSWE "montre où ils divergent réellement, ce qui correspond à l'expérience réaliste des développeurs dans leur travail quotidien".

Critique des vérificateurs de SWE-Bench Pro

Datacurve pointe également des défauts graves dans l'infrastructure d'évaluation la plus utilisée, SWE-Bench Pro, gérée par Scale AI. Un audit portant sur 30 tâches tirées au sort de chaque benchmark, avec trois passages sur dix configurations de modèles, a révélé que les vérificateurs automatisés de SWE-Bench Pro rendaient des verdicts erronés dans environ un tiers des cas : 8,5 % de faux positifs (une solution incorrecte acceptée) et 24 % de faux négatifs (une solution correcte rejetée). À titre de comparaison, DeepSWE affiche des taux de 0,3 % et 1,1 % respectivement.

Le problème des faux négatifs est particulièrement préoccupant, car il pénalise les approches créatives. Dans un cas documenté, un agent avait résolu une tâche en intégrant une fonction privée, une solution valide du point de vue du génie logiciel. Or, le test unitaire tentait d'importer un symbole qui n'existait que dans l'implémentation originale de l'auteur, ce qui a conduit à l'échec de l'évaluation.

Datacurve souligne aussi que les tâches de SWE-Bench Pro sont souvent tirées de l'historique public de GitHub, ce qui expose à un risque de contamination : les modèles peuvent avoir déjà vu le problème, voire la solution exacte, dans leurs données d'entraînement. De plus, les correctifs attendus sont en moyenne de 120 lignes de code sur 5 fichiers, contre 668 lignes sur 7 fichiers pour DeepSWE, et ce avec des consignes plus courtes (2 158 caractères en moyenne contre 4 614). Cela rendrait les tâches de SWE-Bench Pro plus triviales et moins représentatives du travail réel des développeurs.

Des résultats qui redistribuent les cartes

Les scores de DeepSWE bousculent la hiérarchie habituelle. GPT-5.5 domine nettement, suivi par GPT-5.4 et Claude Opus 4.7. Viennent ensuite Claude Sonnet 4.6 (32 %), Gemini 3.5 Flash (28 %), puis GPT-5.4-mini et Kimi K2.6 (24 %), et une longue traîne de modèles entre 0 et 20 %. L'effondrement de Claude Haiku 4.5, qui passe de 39 % à 0 %, suggère que certains modèles intermédiaires surperformaient artificiellement sur des benchmarks plus faciles ou contaminés.

Implications pour l'écosystème

Si ces résultats se confirment, les conséquences sont considérables. Les équipes d'approvisionnement des entreprises, les investisseurs en capital-risque et les services marketing des laboratoires d'IA s'appuient fortement sur les scores des benchmarks pour prendre des décisions impliquant des millions de dollars. Un taux d'erreur de 32 % dans le benchmark de codage le plus cité suggère que l'industrie pourrait avoir navigué avec une boussole défectueuse. Datacurve appelle à une révision des méthodes d'évaluation, et son benchmark DeepSWE se présente comme une alternative plus rigoureuse, avec des vérificateurs quasi exempts d'erreurs et des tâches plus proches des besoins réels des développeurs.