Un leadership conforté par les performances

Dans le cadre de sa préparation à l’introduction en Bourse, Anthropic a soumis un projet de déclaration S-1 à la SEC le 1er juin. La société occupe désormais quatre des cinq premières places du classement Text Arena, avec les variantes de Claude Opus 4.6 et 4.7, en modes standard et réflexion, tout en haut du podium. L’écart de scores bruts entre les modèles d’Anthropic et le reste du secteur reste modeste mais constant, ce qui suggère un avantage qualitatif significatif dans les tâches textuelles généralistes.

Le rythme des lancements s’est accéléré. Anthropic a dévoilé Claude Opus 4.8 le 28 mai, soit seulement 42 jours après Opus 4.7. Cette nouvelle version améliore les performances de codage, intègre des contrôles d’effort et des flux de travail dynamiques, et propose un mode rapide trois fois moins cher que les versions précédentes (50 dollars par million de tokens en sortie, contre 150 dollars pour Opus 4.6 et 4.7 en mode rapide). Le modèle est présenté comme « quatre fois moins susceptible que son prédécesseur de laisser passer des défauts dans le code qu’il a écrit sans les signaler ». Anthropic fait de l’honnêteté un argument de différenciation.

Un jalon financier majeur

Ce déploiement s’accompagne d’une étape financière remarquable : la valorisation d’Anthropic atteindrait 965 milliards de dollars, selon des informations rapportées. Parallèlement, la société a mis à disposition un modèle frontalier en édition limitée appelé Claude Mythos. Sur les benchmarks de codage, Claude Opus 4.7 domine le WebDev Arena, et Anthropic occupe cinq des sept premières places. La maîtrise du codage constitue l’avantage concurrentiel le plus net de l’entreprise.

Le paysage concurrentiel : OpenAI et Google en embuscade

OpenAI conserve une présence massive, même si ses modèles ne dominent plus les classements bruts. GPT-5.5 et ses variantes apparaissent dans les deux classements et bénéficient d’un déploiement mondial important : GPT-5.5 Instant sert désormais de modèle par défaut pour ChatGPT auprès de centaines de millions d’utilisateurs. Ce modèle a été présenté comme offrant moins d’hallucinations et une personnalisation améliorée lors de son lancement début mai. OpenAI a également accordé aux grandes banques japonaises un accès anticipé à une variante spécialisée GPT-5.5-Cyber, marquant une incursion dans les secteurs réglementés et la sécurité. Dans le classement Text Arena, GPT-5.5 occupe la huitième place pour les tâches textuelles ; en codage, gpt-5.5-xhigh se classe onzième.

Google occupe une position médiane dans les classements de performance. Gemini 3.1 Pro est sixième au Text Arena, et Gemini 3-Pro septième. Google mise désormais sur le rapport coût-vitesse avec le lancement de Gemini 3.5 Flash, présenté comme un modèle compétitif pour le codage et les tâches agentiques à une fraction du coût des modèles phares. Toutefois, Gemini 3.5 Flash est vendu trois fois plus cher que Gemini 3 Flash, ce qui souligne l’instabilité des tendances tarifaires dans le secteur de l’IA.

La poussée chinoise : DeepSeek, Xiaomi, Alibaba et les autres

Le développement de l’intelligence artificielle en Chine progresse rapidement, à la fois du côté des modèles ouverts et propriétaires. DeepSeek a annoncé une réduction permanente de 75 % du prix de son modèle V4-Pro, et deepseek-v4-flash est devenu le modèle le plus populaire sur OpenRouter cette semaine.

Alibaba a fait entrer Qwen 3.7 Max dans le top 15 du Text Arena sur des scores préliminaires, et l’a hissé à la quatrième place du classement WebDev en codage. Le modèle aurait exécuté des tâches de manière autonome pendant 35 heures lors de tests et prend en charge des harnais externes comme Claude Code. Alibaba a également dévoilé une nouvelle puce IA interne, le Zhenwu M890, alors que les entreprises chinoises cherchent des alternatives nationales à Nvidia.

Xiaomi MiMo V2.5 Pro, un modèle open-weight sous licence MIT, se classe 27e au Text Arena et 15e au WebDev, des niveaux compétitifs pour un modèle ouvert. Xiaomi a parallèlement réduit ses prix d’API jusqu’à 99 %. Les données d’OpenRouter montrent que MiMo V2.5 a généré plus de 1,48 trillion de tokens en une semaine.

Moonshot AI, avec son modèle Kimi K2.6 sous licence MIT modifiée, se classe 28e au Text Arena et huitième au WebDev, et a démontré une vitesse de 981 tokens par seconde sur du matériel Cerebras. Moonshot a bouclé un tour de financement de 2 milliards de dollars pour une valorisation de 20 milliards de dollars début mai.

Tencent, avec Hy3 Preview, occupe la deuxième place des classements hebdomadaires d’OpenRouter avec 3,07 billions de tokens. Baidu, avec ERNIE 5.1, se classe 21e au Text Arena, affirmant offrir « des performances fondamentales de premier plan à son échelle de modèle en utilisant seulement environ 6 % du coût de pré-entraînement de modèles comparables ». Enfin, Z.ai, avec GLM-5.1 sous licence MIT, se classe 16e en texte et sixième en codage, et l’action de sa société mère a presque décuplé depuis son introduction en Bourse plus tôt dans l’année.

Meta entre dans la course aux frontières

Meta a dévoilé Muse Spark en avril, son premier modèle issu de son coûteuse équipe de super-intelligence. Les premiers résultats aux classements sont encourageants : cinquième place au Text Arena sur des scores préliminaires et neuvième au WebDev. Meta a commencé à tester une tarification par abonnement pour son application IA, à partir de 7,99 dollars par mois, ce qui suggère un virage tardif vers la monétisation grand public.

Les tendances de fond

Plusieurs thèmes majeurs se dégagent de ce paysage concurrentiel. La convergence des performances est réelle mais nuancée : les 25 premiers modèles du Text Arena ne sont séparés que par une quarantaine de points Elo, mais des différences qualitatives subsistent en matière de raisonnement, de précision et de fiabilité agentique. La bifurcation des prix s’accélère : les laboratoires occidentaux augmentent leurs tarifs pour les nouveaux modèles, tandis que les concurrents chinois s’engagent dans une course au prix bas, créant une pression stratégique réelle. La capacité agentique est passée du stade de concept à celui de champ de bataille concurrentiel, chaque grand laboratoire mettant désormais l’accent sur le raisonnement multi-étapes, l’utilisation d’outils et l’exécution autonome de tâches. Enfin, les modèles open-weight deviennent de plus en plus compétitifs face aux modèles propriétaires, avec GLM-5.1, MiMo V2.5 Pro et Kimi K2.6 qui se situent tous à portée de leurs rivaux fermés. La course est plus rapide, plus large et moins prévisible qu’à aucun moment antérieur.