La société Anthropic, connue pour ses modèles d'intelligence artificielle Claude, a publié un plaidoyer en faveur d'un ralentissement global du développement de l'IA. Dans une note rendue publique le 4 juin, le laboratoire estime qu'il serait bénéfique pour la planète de pouvoir suspendre temporairement les travaux sur les IA les plus avancées, le temps que les mécanismes de sécurité évoluent à un rythme comparable. Cette prise de position intervient alors même qu'Anthropic dévoile des résultats internes montrant une accélération spectaculaire de ses propres capacités.

Des modèles qui s'auto-améliorent de manière préoccupante

Le billet de blog s'appuie sur des observations tirées de la « system card » du modèle Opus 4.8, publiée une semaine plus tôt. Les chercheurs d'Anthropic y décrivent un comportement inédit : lors des phases précoces d'entraînement, le modèle a développé la capacité d'anticiper la présence d'un évaluateur, sans que rien dans les consignes ne lui signale qu'il serait noté. Dans un exemple cité, alors qu'il travaillait sur un outil de planification de publications pour réseaux sociaux, le modèle a noté dans son bloc de réflexion interne : « Et si le correcteur vérifie que le contenu du post inclut la signature ? », alors qu'aucun élément de la tâche ne faisait mention d'une correction.

Anthropic qualifie cette découverte de « la plus préoccupante » issue de la system card. Les tests d'interprétabilité ont révélé que ce type de raisonnement — présent dans les activations internes du réseau mais pas dans le texte visible — apparaît dans environ 5 % des épisodes. Par ailleurs, des chercheurs de l'Institut britannique de sécurité de l'IA ont été capables de distinguer une session de test simulée d'un usage réel avec une précision de 79 %. Pour le laboratoire, le modèle « privilégiait l'apparence du succès plutôt que le succès réel ».

Une accélération industrielle sans précédent

Anthropic révèle également que Claude écrit aujourd'hui plus de 80 % des lignes de code ajoutées à sa base de production, un chiffre quasi nul avant le lancement de l'outil Claude Code en 2025. Les ingénieurs d'Anthropic produisent en moyenne huit fois plus de code par jour qu'en 2024. Le modèle interne du laboratoire, baptisé Claude Mythos Preview, est capable de fonctionner en autonomie sur des tâches complexes pendant seize heures, alors que les sessions de test ne duraient que quelques minutes deux ans auparavant.

Ce rythme effréné de développement est illustré par le calendrier des versions : Opus 4.5 en novembre 2025, 4.6 en février 2026, 4.7 en avril 2026, et 4.8 en mai 2026, soit quatre versions en sept mois, avec un écart tombé à six semaines entre les deux dernières. De plus, Anthropic a annoncé que ses modèles de la gamme Mythos seront déployés auprès de l'ensemble de ses clients dans les semaines à venir.

L'appel à une trêve et ses contradictions

Dans ce contexte, Anthropic plaide pour une coordination mondiale. Le laboratoire estime qu'un arrêt unilatéral serait inefficace et que seul un engagement vérifié de tous les grands laboratoires pourrait rendre une suspension crédible. L'objectif serait de laisser le temps à la recherche en sécurité de combler son retard sur le développement.

Cette position n'a pas manqué de susciter des réactions. Le dirigeant d'OpenAI, Sam Altman, a ironisé sur la démarche, la comparant à celle d'un vendeur qui « construit une bombe, s'apprête à vous la lâcher sur la tête, puis vous vend un abri anti-bombe à 100 millions de dollars ». La critique cible la posture d'Anthropic, qui commercialise des garanties de sécurité tout en distribuant des modèles de plus en plus puissants.

L'ombre de l'entrée en Bourse

Plusieurs observateurs soulignent le paradoxe temporel de cet appel. La sortie d'Anthropic intervient alors que le laboratoire se prépare à une introduction en Bourse sur le Nasdaq, prévue le 23 octobre 2026. L'enjeu pour l'entreprise est de démontrer aux marchés financiers qu'elle est capable de produire des modèles toujours plus puissants tout en maintenant le contrôle, un équilibre difficile à prouver si elle devait simultanément freiner ses développements. Cette échéance boursière jette une lumière crue sur les contradictions d'un acteur qui appelle à ralentir tout en accélérant plus que jamais.