Aller au contenu
vendredi 29 mai 2026
Suivi du sujet

DeepSWE blows up the AI coding leaderboard, crowns GPT-5.5

Article URL: https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole Comments URL: https://news.ycombinator.com/item?id=48289411 Points: 1 # Comments: 0

1 article

Ce sujet évolue — revenez pour les suites.

Anthropic Claude Haiku 4.5 Claude Opus 4.7 Claude Sonnet 4.6 Datacurve DeepSWE Gemini 3.5 Flash Google GPT-5.4 GPT-5.5 Kimi K2.6 OpenAI Scale AI Serena Ge SWE-Bench Pro

Évolution chronologique

  1. 27 mai 2026, 04h04

    DeepSWE bouleverse le classement du codage IA et sacre GPT-5.5

    Datacurve publie DeepSWE, un benchmark de codage qui place GPT-5.5 loin devant et révèle que SWE-Bench Pro produit un tiers de verdicts erronés.