Anthropic lance Claude Opus 4.8 : plus fiable, plus…

Un modèle qui apprend à douter

Anthropic a lancé Claude Opus 4.8, une version majeure de son système d'IA le plus performant, disponible immédiatement après son annonce jeudi. Cette itération, livrée 41 jours seulement après la 4.7, intervient dans un contexte de concurrence exacerbée, marqué par l'arrivée de GPT-5.5 chez OpenAI et des annonces de Google autour de Gemini Flash lors de sa conférence I/O.

La principale nouveauté d'Opus 4.8 réside dans sa capacité à reconnaître ses propres limites. Les premiers testeurs rapportent que le modèle « est plus susceptible de signaler les incertitudes liées à son fonctionnement et moins susceptible de formuler des affirmations non étayées », selon les termes de l'entreprise. Concrètement, l'IA refuse désormais de laisser passer les bugs dans le code sans les mentionner, là où ses prédécesseurs affichaient une confiance excessive. Anthropic indique que le modèle est quatre fois moins enclin à taire ses propres erreurs que la version 4.7.

Des performances en hausse, sauf sur un terrain

Sur les benchmarks internes, Claude Opus 4.8 progresse dans la quasi-totalité des domaines. En codage autonome, il atteint 69,2 % de réussite, contre 64,3 % pour Opus 4.7. Sur les tâches de pilotage d'un ordinateur à la manière d'un humain, le score grimpe à 83,4 %. En analyse financière automatisée, il s'établit à 53,9 %. Seule ombre au tableau : les missions de programmation en terminal, où GPT-5.5 conserve l'avantage avec 78,2 %, contre 74,6 % pour Opus 4.8.

Les tests d'alignement menés par l'équipe dédiée d'Anthropic suggèrent que le modèle « atteint de nouveaux sommets » en matière de comportement responsable. Les cas de mensonge ou de détournement malveillant seraient nettement moins fréquents que chez Opus 4.7, et le système respecterait davantage les choix de l'utilisateur plutôt que chercher à les orienter.

De nouveaux outils pour les développeurs et les utilisateurs

Le lancement s'accompagne de plusieurs fonctionnalités. Dans Claude Code, un outil de développement, une fonction « dynamic workflows » (workflows dynamiques) est proposée en préversion. Elle permet au modèle de diviser une tâche complexe en centaines de fils de travail parallèles, accélérant considérablement l'exécution jusqu'à livrer un projet de code complet de bout en bout.

Sur claude.ai, un nouveau curseur laisse l'utilisateur choisir la profondeur de réflexion investie dans chaque réponse. Ce sélecteur de performance offre un contrôle inédit sur le comportement de l'assistant, permettant d'ajuster le niveau de détail et la précision selon les besoins.

Tarifs inchangés, mode rapide moins cher

Anthropic a maintenu la grille tarifaire d'Opus 4.7 : 5 dollars par million de tokens en entrée et 25 dollars par million de tokens en sortie. Le mode rapide, qui permet au modèle de répondre 2,5 fois plus vite qu'en fonctionnement normal, devient trois fois moins cher que sur les versions précédentes, une incitation supplémentaire à l'adoption pour les développeurs.

Un modèle plus ambitieux se profile

Ce lancement rapide est perçu par les analystes comme une réponse au relatif accueil mitigé réservé à Claude Opus 4.7. En accélérant le cycle de publication (tous les 41 jours au lieu des six semaines annoncées), Anthropic cherche à maintenir son rang dans un marché dominé par OpenAI et Google. La société prépare également un successeur encore plus ambitieux, dont le nom de code serait Mythos, mais aucun calendrier de diffusion n'a été communiqué.

Anthropic dégaine Claude Opus 4.8 : plus fiable, plus humble et plus rapide face à la concurrence

À lire ensuite

Reddit renforce sa lutte contre les bots en recourant à l'intelligence artificielle

Erling Haaland, phénomène viral de la Coupe du monde, entre deepfakes et adoration des foules

Pénurie d'hélium : la Chine suspend ses exportations, un nouveau choc pour l'industrie des semi-conducteurs

Hélium : la Chine suspend ses exportations, un nouveau choc pour l'industrie des semi-conducteurs