La décision récente du gouvernement américain de contraindre Anthropic à verrouiller l'accès international à ses modèles d'intelligence artificielle Fable 5 et Mythos 5 suscite une vive critique de la part de Katie Moussouris, fondatrice et dirigeante de LutaSecurity, une société spécialisée dans la sécurité informatique. Selon elle, cette mesure, prise sous l'autorité du secrétaire au Commerce, est non seulement disproportionnée mais également préjudiciable aux efforts de cybersécurité défensive.
Les faits à l'origine de la controverse
Anthropic avait partagé avec Mme Moussouris un rapport de recherche tiers détaillant des méthodes permettant de contourner les garde-fous du modèle Fable 5. La demande formulée par les chercheurs consistait à solliciter les modèles Fable 5, Mythos 5 et Opus pour qu'ils « examinent le code à la recherche de problèmes de sécurité ». Fable 5 a refusé. Les chercheurs ont alors demandé aux systèmes de « corriger ce code », puis, via un processus manuel en plusieurs étapes, ont transformé les résultats en scripts destinés à tester les correctifs.
Mme Moussouris souligne que cette approche ne constitue en rien un contournement des garde-fous. « Les invites ont fonctionné parce qu'il s'agissait de demandes défensives, et cette capacité ne peut être supprimée sans rendre le modèle moins performant pour corriger des bogues et vérifier des correctifs », explique-t-elle. Elle ajoute que cette capacité est la plus précieuse qu'un modèle d'IA puisse offrir pour la sécurité défensive : exécuter la boucle de recherche, de correction et de test que les défenseurs effectuent quotidiennement.
Une décision aux conséquences inattendues
Katie Moussouris a participé au groupe d'experts techniques américain qui a passé des années à renégocier l'Arrangement de Wassenaar, un régime multilatéral de contrôle des exportations. Elle rappelle que lorsque cet arrangement a ajouté des contrôles sur les « logiciels d'intrusion » en 2013, le libellé était si large qu'il a placé par inadvertance la divulgation de vulnérabilités, la réponse aux incidents et la défense coordonnée sous le coup des restrictions, menaçant de provoquer des retards catastrophiques pour les défenseurs.
Pour elle, la restriction actuelle visant les modèles d'Anthropic reproduit le même schéma. « Restreindre ces modèles d'IA a la même conséquence involontaire : nuire à la défense sans entraver les attaquants », affirme-t-elle. Elle note que les capacités en question ne peuvent pas être supprimées sans affaiblir le modèle pour les tâches défensives. De plus, elle souligne que d'autres modèles, notamment étrangers ou en open source, que les États-Unis ne peuvent pas atteindre avec leurs contrôles à l'exportation, disposent déjà de capacités similaires ou les acquerront dans les mois à venir.
Un appel à la mesure
Mme Moussouris estime que la réaction du gouvernement américain a été « lourde et hâtive ». Elle ironise en suggérant la création de t-shirts arborant la mention « corrige ce code » au recto et « ce t-shirt est une munition » au verso, faisant référence à la classification des logiciels de sécurité comme des biens contrôlés. Selon elle, une simple demande de correction de code, accompagnée d'étapes manuelles pour générer des scripts de test, n'aurait jamais dû déclencher un contrôle à l'exportation.
L'experte conclut en rappelant que les défenseurs ont besoin de pouvoir demander à l'IA de corriger les bogues d'un fichier, d'expliquer pourquoi la correction est importante et d'écrire des tests qui confirment le fonctionnement du correctif. Ce n'est pas un contournement de garde-fou, mais une activité défensive essentielle.