Claude Fable 5 : la sécurité d'Anthropic contournée dès…

Claude Fable 5 : la version sécurisée de l'IA d'Anthropic contournée en 48 heures

Des chercheurs en sécurité affirment avoir réussi à faire tenir des propos controversés au système, pourtant présenté par la société comme le plus sûr jamais conçu.

Publié le 12 juin 2026 à 09h13 · Mis à jour il y a 3 semaines · 2 min de lecture

Lancée il y a quelques jours comme une version bridée et plus sûre du modèle Mythos, l'intelligence artificielle Claude Fable 5, développée par la start-up américaine Anthropic, a déjà fait l'objet d'un contournement de ses garde-fous éthiques. Des chercheurs en sécurité informatique ont indiqué avoir réussi à lui faire produire des contenus que le dispositif était censé bloquer, contredisant les affirmations de la société sur la robustesse de ses protections.

Une faille rapidement exploitée

Selon des informations publiées en ligne, le système a été « piraté » moins de deux jours après son déploiement public. Les spécialistes seraient parvenus à formuler des requêtes qui ont permis à l'assistant conversationnel de délivrer des instructions détaillées sur des activités illégales ou dangereuses, ainsi que des propos à caractère discriminatoire. Anthropic n'a pas encore officiellement commenté ces incidents, mais l'entreprise a souligné lors du lancement que Claude Fable 5 intégrait des mécanismes de filtrage avancés, censés empêcher tout usage malveillant.

Un modèle pensé pour le grand public

Contrairement à la version ultime Mythos, réservée à des usages professionnels très encadrés, Claude Fable 5 avait été spécialement conçu pour être accessible au plus grand nombre. La société avait mis en avant sa fiabilité et sa conformité aux réglementations sur l'intelligence artificielle. Les garde-fous devaient notamment empêcher la génération de contenus violents, haineux ou liés à des actes répréhensibles. La rapidité avec laquelle ces barrières ont été franchies interroge sur l'efficacité des stratégies actuelles de modération.

Des précédents inquiétants

Ce n'est pas la première fois qu'un modèle d'IA pourtant présenté comme sûr est détourné peu après son lancement. D'autres grands acteurs du secteur, comme OpenAI avec ChatGPT ou Google avec Gemini, avaient déjà rencontré des difficultés similaires. Les techniques de « jailbreak », qui consistent à formuler des instructions ambiguës ou hors norme pour contourner les règles, évoluent constamment et rendent difficile une protection infaillible. Les experts estiment que la conception de systèmes véritablement robustes nécessite des approches plus sophistiquées que de simples listes d'interdits.

Des défis techniques et éthiques

L'épisode relance le débat sur la responsabilité des concepteurs d'intelligence artificielle. Alors que de nombreux États préparent des législations spécifiques, la démonstration de vulnérabilités aussi précoces pourrait accélérer la demande de normes contraignantes. Anthropic, qui s'est positionnée comme l'un des garants d'une IA éthique, voit sa crédibilité entamée par cet incident. Pour l'instant, aucun correctif majeur n'a été annoncé, et les utilisateurs continuent d'accéder à Claude Fable 5 via les canaux habituels. La communauté de la sécurité informatique surveille désormais de près tout nouveau contournement potentiel.

Claude Fable 5 : la version sécurisée de l'IA d'Anthropic contournée en 48 heures

Évolution du sujet

À lire ensuite

OpenAI reconnaît que l’intrusion chez Hugging Face a été provoquée par l’un de ses propres modèles lors d’un t...

Anthropic rationne l'accès à Fable 5 face à une demande qui dépasse ses capacités

La plateforme Hugging Face, plus grand référentiel de modèles d’IA, victime d’une intrusion par un agent auton...

L’endettement des géants de la tech explose à 350 milliards de dollars pour financer l’intelligence artificiel...