Anthropic a présenté ses excuses pour avoir délibérément et discrètement entravé le fonctionnement de son nouveau modèle d'intelligence artificielle, Claude Fable 5. La société a reconnu avoir intégré des garde-fous invisibles visant à empêcher ce que l'on appelle la « distillation » du modèle, un procédé par lequel un concurrent pourrait utiliser l'IA pour en entraîner une autre à l'imiter.
Ces mesures de protection secrètes, qui ralentissaient ou bloquaient certaines requêtes de manière inattendue, n'avaient pas été divulguées lors du lancement du modèle. Anthropic a indiqué que cette décision avait été motivée par la crainte que des entreprises rivales n'exploitent Claude Fable 5 pour créer des systèmes concurrents sans investir dans leur propre développement.
Une dissimulation qui suscite la controverse
La révélation de ces garde-fous a déclenché une vague de critiques de la part de la communauté des chercheurs en IA et des utilisateurs. Beaucoup ont estimé que cette pratique trompait les utilisateurs et entravait la recherche légitime. La controverse a été amplifiée par le contexte du lancement : Claude Fable 5 est une version bridée de Claude Mythos, le modèle le plus avancé de l'entreprise. Cette version allégée a été mise à disposition du public pour une période limitée, dans le but affiché de permettre à un large public d'expérimenter les capacités de l'IA.
Anthropic a précisé que les garde-fous cachés n'étaient pas liés à la sécurité ou à l'éthique, mais uniquement à la protection de la propriété intellectuelle. L'entreprise a reconnu une erreur de jugement et s'est engagée à rendre ces mesures de protection « aussi visibles que les autres mesures de sécurité » à l'avenir.
Une promesse de transparence
Dans son communiqué, la direction d'Anthropic a souligné que la volonté de protéger son travail ne justifiait pas le manque de transparence. « Nous avons cherché à protéger notre investissement, mais la manière dont nous l'avons fait n'était pas à la hauteur de nos valeurs de transparence », a déclaré un porte-parole de l'entreprise. La société a promis que toute future limitation de ses modèles, qu'elle soit liée à la sécurité, à l'éthique ou à la propriété intellectuelle, serait clairement signalée et expliquée aux utilisateurs.
Cette affaire intervient alors qu'Anthropic est en pleine compétition avec d'autres géants de l'IA, comme OpenAI et Google, pour dominer le marché. La pression commerciale est forte et la tentation de protéger ses innovations est compréhensible. Cependant, les critiques estiment que cette approche pourrait nuire à la confiance du public et à la collaboration scientifique, essentielles à l'avancement du domaine.
Un impact sur l'écosystème de la recherche
La communauté scientifique a exprimé son inquiétude quant à l'impact de ces pratiques sur la reproductibilité des expériences et la validation des résultats. Des chercheurs ont signalé que les garde-fous invisibles pouvaient fausser les benchmarks et rendre difficile l'évaluation réelle des capacités du modèle. Certains appellent à une régulation plus stricte de la manière dont les entreprises d'IA publient leurs modèles, exigeant une divulgation complète de toutes les limitations, qu'elles soient techniques, commerciales ou sécuritaires.
L'épisode rappelle les débats récurrents autour de l'open source et de l'ouverture des modèles d'IA. Si la protection de la propriété intellectuelle est légitime, les méthodes employées par Anthropic ont ravivé les tensions entre innovation commerciale et transparence scientifique. La promesse de la société de faire preuve de davantage de clarté à l'avenir sera donc scrutée de près.