Audit indépendant : quatre tâches du benchmark DeepSWE ne passent pas leur propre test
Un examen minutieux du nouveau benchmark de codage DeepSWE révèle que quatre des cent treize tâches de référence échouent à leur propre vérificateur, jetant un doute sur leur fiabilité avant toute résolution.
Charley Lee
Claude Opus 4.7
Claude Sonnet 4.6
Datacurve
DeepSeek V4 Pro
DeepSWE
Gemini 3.1 Pro
Gemini 3.5 Flash
gemini-3-flash
GitHub
GLM-5.1
Go
GPT-5.4
gpt-5.4-mini
GPT-5.5
JavaScript
Kimi K2.6
langchain-request-coalescing
Leonard Tng
mimo-v2.5-pro
mini-swe-agent
narwhals-rolling-window-suite
prometheus-transactional-reload-status
Python
Rust
Serena Ge
skrub-duration-encoding
SWE-Bench Pro
SWE-Bench Verified
TypeScript
Wenqi Huang
Évolution chronologique
-
DeepSWE, un nouveau benchmark pour évaluer les agents de codage sans risque de contamination
DeepSWE est un nouveau benchmark d'ingénierie logicielle conçu pour évaluer les agents de codage sans risque de contamination. Basé sur 113 tâches originales réparties sur 91 dépôt...