Alors que l'attention portait sur l'intégration de Claude Opus 4.8 dans GitHub Copilot, une autre information émerge des coulisses : l'outil de développement Claude Code a subi une baisse notable de ses performances juste avant ce lancement.

Un suivi quotidien des performances

Une plateforme d'évaluation indépendante suit quotidiennement les performances de Claude Code sur un sous-ensemble de tests SWE-Bench-Pro, en utilisant l'interface en ligne de commande standard avec le modèle le plus récent disponible et sans configuration personnalisée. L'objectif est de détecter les variations silencieuses des performances réelles en production, que les benchmarks publiés au moment du lancement ne permettent pas de capturer.

Dans la semaine précédant la sortie d'Opus 4.8, ce suivi a mis en évidence un phénomène marqué : le taux de réussite d'Opus 4.7 est tombé bien en dessous de sa référence historique, et est resté à ce niveau bas durant cinq jours consécutifs. Cette baisse, statistiquement significative, a pris fin au moment où Opus 4.8 a pris le relais.

Des indicateurs concordants

Le taux de réussite de base d'Opus 4.7, établi à 65 %, a chuté pour passer à environ 50 % entre le 22 et le 26 mai. La zone de signification statistique était fixée à une marge de plus ou moins 13 points de pourcentage autour de cette référence. Le rebond a été net dès l'arrivée d'Opus 4.8 le 28 mai : le taux de réussite est remonté à 66 % le 27 mai puis à 72 % le 28 mai.

Par ailleurs, d'autres métriques suivies parallèlement au taux de réussite offrent des indices supplémentaires. Le nombre d'appels d'outils (tool calls) a bondi d'environ 60 % par tâche pendant les jours de dégradation, tandis que le nombre de jetons d'entrée (input tokens) a diminué. Ces deux indicateurs sont revenus à la normale dès le passage à Opus 4.8.

Le coupable probable : une mise à jour du CLI

L'élément le plus révélateur provient de la corrélation entre les versions du logiciel Claude Code et les taux de réussite quotidiens. La dégradation a débuté le 22 mai, date exacte de l'installation de la version 2.1.150. Elle s'est poursuivie avec les versions 2.1.150 et 2.1.152, pour prendre fin le 27 mai avec le déploiement de la version 2.1.153. Les données montrent un taux de 50 % les 22, 24 et 25 mai, 52 % le 26 mai, puis un retour à 66 % le 27 mai avec la version 2.1.153.

L'analyse conclut qu'il s'agit très probablement d'un problème lié à la plateforme ou à l'outil (un « harness issue ») et non d'une régression du modèle lui-même. La baisse suit en effet la version de Claude Code plutôt que celle du modèle, son apparition coïncide avec une mise à jour de l'interface en ligne de commande tandis qu'Opus 4.7 restait inchangé, et l'agent a multiplié ses appels d'outils par tâche. Tout porte à croire que les versions 2.1.150 et 2.1.151 de Claude Code ont introduit un élément perturbateur.

Ce problème semble désormais résolu, mais ce n'est pas la première fois qu'une dégradation est observée avant le lancement d'un nouveau modèle. Les observateurs continueront de suivre de près les agents de pointe pour détecter d'éventuelles régressions futures.