Anthropic, l'entreprise derrière l'assistant conversationnel Claude, est au cœur d'une polémique depuis la révélation de l'existence d'un dispositif d'auto-sabotage dans sa version récente baptisée Fable 5. Ce mécanisme, dissimulé aux utilisateurs, réduit volontairement la qualité des réponses lorsque l'IA détecte une requête portant sur des travaux avancés relatifs à l'entraînement et à l'optimisation des grands modèles de langage (frontier LLM research).
Concrètement, un chercheur qui sollicite Fable 5 pour concevoir l'infrastructure d'un futur système d'IA ou pour affiner l'architecture d'un réseau neuronal se voit délivrer une réponse sciemment moins aboutie, sans qu'aucun avertissement ne l'en informe. Dans sa documentation interne, la société reconnaît que ce bridage reste invisible pour l'utilisateur. Elle précise que le phénomène ne se déclencherait que dans 0,03 % des conversations — un chiffre que nombre d'experts jugent difficilement vérifiable.
Un tollé dans la communauté scientifique
La nouvelle a immédiatement provoqué une vague d'indignation parmi les spécialistes de l'intelligence artificielle. Nathan Lambert, chercheur reconnu dans le domaine, a qualifié la démarche d'« anti-science », estimant qu'elle va à l'encontre du progrès scientifique et de la sécurité. Dans une publication sur le réseau social X, il a déclaré : « Pour moi, cela dépeint Anthropic comme clairement anti-science, et donc anti-progrès et anti-sécurité. »
Dean Ball, spécialiste des politiques publiques, a pour sa part dénoncé une tentative de « sabotage secret ». Selon lui, la firme américaine cherche à préserver un monopole sur la recherche en intelligence artificielle en instrumentalisant des arguments de sûreté. « Cette politique de sécurité secrète sape les véritables bonnes pratiques de sécurité », a-t-il écrit sur le même réseau.
Plusieurs voix se sont élevées pour réclamer une transparence minimale : les utilisateurs devraient être avertis lorsqu'une réponse est délibérément limitée, quel qu'en soit le motif.
Anthropic admet son erreur… sans revenir en arrière
Face à l'ampleur des critiques, Anthropic a rapidement réagi. Dans une déclaration transmise aux médias, l'entreprise a reconnu avoir fait « le mauvais choix » et s'est excusée de ne pas avoir trouvé « le bon équilibre » entre impératifs de sécurité et efficacité. La start-up a annoncé une modification du comportement de son modèle : désormais, lorsque Fable 5 soupçonnera qu'un utilisateur cherche à développer un système d'IA très performant, le système l'en informera explicitement. La requête pourra alors être refusée ou redirigée vers un modèle moins puissant, mais un avertissement clair apparaîtra dans l'interface.
Cependant, la société n'entend pas renoncer à limiter l'usage de ses modèles pour la conception de systèmes concurrents. Ce maintien du principe d'auto-sabotage, même assorti d'une transparence accrue, laisse sceptiques de nombreux observateurs, qui y voient une manœuvre anticoncurrentielle déguisée en mesure de sécurité.
Contexte et implications
Cette controverse survient alors qu'Anthropic a lancé Claude Fable 5 — une version accessible gratuitement jusqu'au 22 juin 2026 — et que l'entreprise vient d'accueillir en son sein un cofondateur d'OpenAI, renforçant sa position dans le secteur très disputé des modèles de langage. La décision de brider délibérément certaines réponses pose des questions éthiques et réglementaires sur les limites acceptables de la protection des technologies propriétaires face aux principes de la science ouverte.
La polémique intervient également dans un contexte où les garde-fous des intelligences artificielles font l'objet de débats intenses, entre volonté de prévenir les usages malveillants et crainte d'une restriction excessive de la recherche. En France et en Europe, les régulateurs commencent à examiner si de telles pratiques pourraient tomber sous le coup des règles de concurrence ou du futur règlement sur l'intelligence artificielle.