Anthropic renonce au « sabotage secret » des chercheurs en…

Le spécialiste de l'intelligence artificielle Anthropic a renoncé à une politique qui prévoyait de dégrader discrètement les performances de son dernier modèle, Claude Fable 5, pour les chercheurs travaillant sur des IA concurrentes. La décision initiale de rendre ces limitations invisibles a suscité une levée de boucliers parmi les développeurs et experts du domaine, poussant l'entreprise à modifier sa position.

Un mécanisme de « sabotage discret »

La mesure originelle, intégrée dans la fiche technique du modèle, prévoyait que Claude Fable 5 identifie les requêtes liées au développement de modèles de langage avancés (« frontier LLM ») et en restreigne l'efficacité sans en informer l'utilisateur. Cette approche s'ajoutait à d'autres garde-fous déjà annoncés, comme le redirectionnement vers un modèle moins performant pour les questions touchant à la cybersécurité, la biologie ou la chimie. Mais pour le domaine spécifique de la recherche en IA, Anthropic avait choisi une méthode particulièrement controversée : la limitation silencieuse des capacités.

Will Brown, responsable de la recherche chez Prime Intellect, une start-up spécialisée dans l'IA open source, estime que ce dispositif revenait à dire au public qu'Anthropic ne faisait confiance à personne d'autre pour mener des recherches en IA. Selon lui, cette stratégie donnait l'impression que l'entreprise cherchait à « retirer l'échelle après être montée ». Dean Ball, chercheur senior à la Foundation for American Innovation et ancien conseiller à la Maison-Blanche sur les questions d'IA, a qualifié sur le réseau social X cette dégradation non signalée de « terriblement hostile » et de « sabotage secret » qui mine la crédibilité de la société en matière de sécurité.

Un revirement sous la pression

Anthropic a officiellement annoncé un changement de cap. Dans une déclaration, la société a reconnu avoir fait le mauvais choix en privilégiant des garde-fous invisibles. Désormais, lorsque le système estimera qu'un utilisateur cherche à développer un modèle d'IA très performant, il affichera un refus explicite ou redirigera la requête vers un modèle moins avancé, en l'indiquant clairement. Le mécanisme de repli vers le modèle Opus 4.8 sera donc visible à chaque occurrence. Pour les appels via l'interface de programmation (API), les requêtes refusées renverront une raison explicite.

L'entreprise a justifié sa politique initiale par la volonté de déployer rapidement Claude Fable 5 tout en minimisant les risques. Les garde-fous invisibles, plus difficiles à sonder et à contourner, permettaient selon elle de cibler très étroitement les restrictions, avec un faible taux de faux positifs. À l'inverse, des mesures visibles, parce qu'elles sont susceptibles d'être testées, nécessitent d'être plus robustes et de couvrir un champ plus large, ce qui peut entraîner le blocage de requêtes légitimes. Anthropic a indiqué travailler à affiner ses classifieurs aussi rapidement que possible pour réduire cet inconvénient.

Sécurité nationale et concurrence

La société a également invoqué des motifs de sécurité nationale pour justifier le principe même de ces restrictions. Selon elle, ces garde-fous empêchent des adversaires étrangers d'utiliser ses modèles les plus performants d'une manière qui présenterait des risques graves pour la sécurité. Anthropic estime que les États-Unis et leurs alliés détiennent un avantage dans le domaine des puces de pointe et des logiciels hautement optimisés, et que ces mesures garantissent que Claude ne soit pas employé pour réduire cet avantage, par exemple en optimisant des processeurs développés par des pays concurrents.

Cette affaire intervient alors que Claude est devenu un outil prisé par les développeurs, y compris ceux travaillant sur des projets de recherche open source. Des chercheurs ont fait valoir que la politique secrète d'Anthropic aurait pu entraver le travail de cabinets d'évaluation tiers chargés de tester la sécurité, la performance et la fiabilité des modèles de pointe, un écosystème en pleine croissance.

En choisissant de rendre les restrictions visibles, Anthropic espère restaurer la confiance, mais prévient que ce choix implique un filet plus large, avec un risque accru de blocage de requêtes inoffensives. L'entreprise assure qu'elle s'efforce de rendre ses systèmes de détection plus précis.

Anthropic fait marche arrière sur une mesure secrète qui limitait la recherche en IA

À lire ensuite

OpenAI reconnaît que l’intrusion chez Hugging Face a été provoquée par l’un de ses propres modèles lors d’un t...

Anthropic rationne l'accès à Fable 5 face à une demande qui dépasse ses capacités

La plateforme Hugging Face, plus grand référentiel de modèles d’IA, victime d’une intrusion par un agent auton...

L’endettement des géants de la tech explose à 350 milliards de dollars pour financer l’intelligence artificiel...