Suivi du sujet

DeepSWE, un nouveau benchmark pour évaluer les agents de codage sans risque de contamination

Conçu pour mesurer les performances réelles des agents de codage sur des tâches d'ingénierie longues et originales, le benchmark DeepSWE se distingue par l'absence de contamination des données d'entraînement et une large couverture de dépôts logiciels.

1 article

Ce sujet évolue — revenez pour les suites.

Charley Lee Claude Opus 4.7 Claude Sonnet 4.6 Datacurve DeepSeek V4 Pro DeepSWE Gemini 3.1 Pro Gemini 3.5 Flash gemini-3-flash GitHub GLM-5.1 Go GPT-5.4 gpt-5.4-mini GPT-5.5 JavaScript Kimi K2.6 Leonard Tng mimo-v2.5-pro mini-swe-agent Python Rust Serena Ge SWE-Bench Pro SWE-Bench Verified TypeScript Wenqi Huang

Évolution chronologique

27 mai 2026, 20h17

DeepSWE, un nouveau benchmark pour évaluer les agents de codage sans risque de contamination

DeepSWE est un nouveau benchmark d'ingénierie logicielle conçu pour évaluer les agents de codage sans risque de contamination. Basé sur 113 tâches originales réparties sur 91 dépôt...

Toute l’actualité »