DeepSWE blows up the AI coding leaderboard, crowns GPT-5.5
Article URL: https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole Comments URL: https://news.ycombinator.com/item?id=48289411 Points: 1 # Comments: 0
Anthropic
Claude Haiku 4.5
Claude Opus 4.7
Claude Sonnet 4.6
Datacurve
DeepSWE
Gemini 3.5 Flash
Google
GPT-5.4
GPT-5.5
Kimi K2.6
OpenAI
Scale AI
Serena Ge
SWE-Bench Pro
Évolution chronologique
-
DeepSWE bouleverse le classement du codage IA et sacre GPT-5.5
Datacurve publie DeepSWE, un benchmark de codage qui place GPT-5.5 loin devant et révèle que SWE-Bench Pro produit un tiers de verdicts erronés.