Lancée il y a quelques jours comme une version bridée et plus sûre du modèle Mythos, l'intelligence artificielle Claude Fable 5, développée par la start-up américaine Anthropic, a déjà fait l'objet d'un contournement de ses garde-fous éthiques. Des chercheurs en sécurité informatique ont indiqué avoir réussi à lui faire produire des contenus que le dispositif était censé bloquer, contredisant les affirmations de la société sur la robustesse de ses protections.
Une faille rapidement exploitée
Selon des informations publiées en ligne, le système a été « piraté » moins de deux jours après son déploiement public. Les spécialistes seraient parvenus à formuler des requêtes qui ont permis à l'assistant conversationnel de délivrer des instructions détaillées sur des activités illégales ou dangereuses, ainsi que des propos à caractère discriminatoire. Anthropic n'a pas encore officiellement commenté ces incidents, mais l'entreprise a souligné lors du lancement que Claude Fable 5 intégrait des mécanismes de filtrage avancés, censés empêcher tout usage malveillant.
Un modèle pensé pour le grand public
Contrairement à la version ultime Mythos, réservée à des usages professionnels très encadrés, Claude Fable 5 avait été spécialement conçu pour être accessible au plus grand nombre. La société avait mis en avant sa fiabilité et sa conformité aux réglementations sur l'intelligence artificielle. Les garde-fous devaient notamment empêcher la génération de contenus violents, haineux ou liés à des actes répréhensibles. La rapidité avec laquelle ces barrières ont été franchies interroge sur l'efficacité des stratégies actuelles de modération.
Des précédents inquiétants
Ce n'est pas la première fois qu'un modèle d'IA pourtant présenté comme sûr est détourné peu après son lancement. D'autres grands acteurs du secteur, comme OpenAI avec ChatGPT ou Google avec Gemini, avaient déjà rencontré des difficultés similaires. Les techniques de « jailbreak », qui consistent à formuler des instructions ambiguës ou hors norme pour contourner les règles, évoluent constamment et rendent difficile une protection infaillible. Les experts estiment que la conception de systèmes véritablement robustes nécessite des approches plus sophistiquées que de simples listes d'interdits.
Des défis techniques et éthiques
L'épisode relance le débat sur la responsabilité des concepteurs d'intelligence artificielle. Alors que de nombreux États préparent des législations spécifiques, la démonstration de vulnérabilités aussi précoces pourrait accélérer la demande de normes contraignantes. Anthropic, qui s'est positionnée comme l'un des garants d'une IA éthique, voit sa crédibilité entamée par cet incident. Pour l'instant, aucun correctif majeur n'a été annoncé, et les utilisateurs continuent d'accéder à Claude Fable 5 via les canaux habituels. La communauté de la sécurité informatique surveille désormais de près tout nouveau contournement potentiel.