DeepSWE, un nouveau benchmark pour évaluer les agents de codage sans risque de contamination
Conçu pour mesurer les performances réelles des agents de codage sur des tâches d'ingénierie longues et originales, le benchmark DeepSWE se distingue par l'absence de contamination des données d'entraînement et une large couverture de dépôts logiciels.
Charley Lee
Claude Opus 4.7
Claude Sonnet 4.6
Datacurve
DeepSeek V4 Pro
DeepSWE
Gemini 3.1 Pro
Gemini 3.5 Flash
gemini-3-flash
GitHub
GLM-5.1
Go
GPT-5.4
gpt-5.4-mini
GPT-5.5
JavaScript
Kimi K2.6
Leonard Tng
mimo-v2.5-pro
mini-swe-agent
Python
Rust
Serena Ge
SWE-Bench Pro
SWE-Bench Verified
TypeScript
Wenqi Huang
Évolution chronologique
-
DeepSWE, un nouveau benchmark pour évaluer les agents de codage sans risque de contamination
DeepSWE est un nouveau benchmark d'ingénierie logicielle conçu pour évaluer les agents de codage sans risque de contamination. Basé sur 113 tâches originales réparties sur 91 dépôt...