Aller au contenu
jeudi 4 juin 2026
Suivi du sujet

Audit indépendant : quatre tâches du benchmark DeepSWE ne passent pas leur propre test

Un examen minutieux du nouveau benchmark de codage DeepSWE révèle que quatre des cent treize tâches de référence échouent à leur propre vérificateur, jetant un doute sur leur fiabilité avant toute résolution.

1 article

Ce sujet évolue — revenez pour les suites.

Charley Lee Claude Opus 4.7 Claude Sonnet 4.6 Datacurve DeepSeek V4 Pro DeepSWE Gemini 3.1 Pro Gemini 3.5 Flash gemini-3-flash GitHub GLM-5.1 Go GPT-5.4 gpt-5.4-mini GPT-5.5 JavaScript Kimi K2.6 langchain-request-coalescing Leonard Tng mimo-v2.5-pro mini-swe-agent narwhals-rolling-window-suite prometheus-transactional-reload-status Python Rust Serena Ge skrub-duration-encoding SWE-Bench Pro SWE-Bench Verified TypeScript Wenqi Huang

Évolution chronologique

  1. 27 mai 2026, 20h17

    DeepSWE, un nouveau benchmark pour évaluer les agents de codage sans risque de contamination

    DeepSWE est un nouveau benchmark d'ingénierie logicielle conçu pour évaluer les agents de codage sans risque de contamination. Basé sur 113 tâches originales réparties sur 91 dépôt...