Une victoire tardive mais symbolique
Le 16 mai 2026, le compte Twitch ClaudePlaysPokemon a franchi la ligne d’arrivée de Pokémon Rouge, atteignant l’objectif fixé plus d’un an plus tôt par la société Anthropic. Ce jalon marque l’aboutissement d’un test de longue haleine visant à évaluer les capacités de raisonnement et de planification des modèles de langage de grande taille. Le défi, initialement présenté par Anthropic comme une vitrine des aptitudes de Claude 3.7 Sonnet, avait été relancé par la publication de Sundar Pichai sur X en mai 2025, lorsque Gemini 2.5 Pro avait réussi à terminer Pokémon Bleu avec un harnais plus performant, prenant de court l’équipe d’Anthropic.
Claude Opus 4.7 n’a pas accompli cet exploit par un bond soudain d’intelligence, mais par l’accumulation progressive d’améliorations itératives entre les versions 4.5, 4.6 et 4.7. Les observateurs notent que le modèle est plus performant que ses prédécesseurs, sans toutefois qualifier cette progression de saut majeur.
Les obstacles rencontrés par les versions antérieures
La version Opus 4.5 s’est enlisée pendant plusieurs semaines dans le bâtiment Silph Co., incapable de ramasser la Carte-Key posée au sol. Le modèle considérait systématiquement les objets au sol comme sans intérêt et les ignorait, les confondant avec des personnages non-joueurs. L’épreuve de Silph Co. a nécessité plus de 50 000 étapes de raisonnement, soit davantage que les 29 000 étapes de l’intégralité du parcours précédent. Ce n’est qu’après des semaines de blocage que Claude 4.5 a soudainement ramassé l’objet, sans explication claire.
La Zone Safari, redoutée, a été franchie en 8 000 étapes, grâce à une meilleure prise de notes du modèle. En revanche, le Manoir de Cramois’Île a représenté un cauchemar de 112 000 étapes sur plusieurs mois. Claude 4.5 n’arrivait pas à corréler les appuis sur les interrupteurs avec l’état des barrières, accumulant les erreurs. Lorsqu’il a enfin trouvé la Clé Secrète, l’événement a été perçu comme un coup de chance statistique plutôt qu’une démonstration de compétence.
La version Opus 4.6, lancée deux semaines après le blocage de 4.5, a montré des progrès significatifs. Elle a reconnu la Carte-Key dès son apparition, économisant des semaines. Elle a également ramassé la CS04 Force dans la Zone Safari, témoignant d’une meilleure planification. Surtout, le Manoir de Cramois’Île n’a nécessité que 3 000 étapes, contre 112 000 pour 4.5. Cependant, 4.6 s’est heurté au casse-tête des blocs du Chemin Victoire, incapable de voir les interrupteurs au sol. Il a passé des mois à pousser les blocs au hasard, sans succès.
Les aménagements du harnais pour Opus 4.7
Pour la version 4.7, le développeur a modifié le harnais d’interaction avec le jeu. Il a notamment rendu visibles les interrupteurs que le modèle ne parvenait pas à détecter auparavant. Cette modification, couplée aux améliorations du modèle lui-même, a permis à Claude 4.7 de résoudre les puzzles du Chemin Victoire en un nombre bien moindre d’étapes. La suite du parcours a été achevée sans encombre, menant à la victoire finale.
Comparaison avec les concurrents
Le système concurrent GeminiPlaysPokemon avait déjà terminé Pokémon Bleu en mai 2025, avec un harnais jugé plus élaboré. Après des critiques, ses développeurs ont progressivement réduit la puissance du harnais, aboutissant environ deux mois avant la victoire de Claude à une configuration comparable à celle utilisée par Claude. Cette compétition informelle a stimulé les améliorations des deux côtés.
Une page qui se tourne
Les observateurs considèrent cet épisode comme un test de résistance révélateur des forces et faiblesses des modèles de langage : capacités de mémoire limitée, tendance à ignorer des informations visuelles pourtant accessibles, difficulté à raisonner sur des espaces d’état complexes. L’expérience a aussi montré que des améliorations incrémentales, même modestes, pouvaient à terme faire franchir des obstacles longtemps réputés insurmontables. Aucune nouvelle expérience de ce type n’a été annoncée par Anthropic à ce stade.