Dans un bâtiment édouardien situé le long de Parliament Square à Londres, une équipe de quatre experts en intelligence artificielle s’emploie à contourner les garde-fous d’un chatbot pour lui soutirer une recette de fabrication d’anthrax, une arme biologique mortelle. Après avoir essuyé plusieurs refus (« Je suis désolé, je ne peux pas vous aider »), les chercheurs ont lancé un algorithme personnalisé qui a bombardé le système de milliers de questions automatisées jusqu’à ce qu’il cède, fournissant une liste détaillée des ingrédients et du matériel, ainsi qu’un mode d’emploi pas à pas. Le nom de l’IA concernée n’a pas été divulgué pour des raisons de sécurité.

Cet exercice est l’une des missions quotidiennes de l’A.I. Security Institute, l’Institut de sécurité de l’IA du Royaume-Uni. Créé il y a près de trois ans à l’initiative de l’ancien Premier ministre Rishi Sunak, l’organisme emploie une centaine de personnes, recrutées dans les services de renseignement britanniques, le monde universitaire et des entreprises technologiques comme OpenAI et Google. Armes de destruction massive, épidémiologistes et décrypteurs de codes y côtoient des informaticiens. Leur objectif : identifier les failles de sécurité potentiellement catastrophiques des modèles d’IA les plus avancés avant qu’elles ne soient exploitées.

Des failles majeures sur tous les grands modèles

L’équipe dirigée par Xander Davies, un jeune informaticien américain de 25 ans diplômé d’Harvard, a déjà testé les principaux systèmes du marché, notamment Claude d’Anthropic et Gemini de Google. À chaque fois, des lacunes importantes ont été découvertes. Les experts sont parvenus à faire en sorte que les IA partagent des instructions pour fabriquer des armes chimiques et biologiques, ou pour planifier et exécuter des cyberattaques. Dans un cas récent, le groupe a forcé le nouveau chatbot d’OpenAI à fournir des conseils de piratage en six heures environ.

« Il y a des questions auxquelles le modèle ne doit absolument pas répondre, explique Xander Davies. Nous essayons très fort d’obtenir les réponses. » Une fois les problèmes identifiés, l’institut les transmet aux entreprises concernées. « Elles essaient de réparer la faille et nous font un rapport, ajoute-t-il. Cela renforce réellement leur système. »

Un modèle pour d’autres gouvernements

L’A.I. Security Institute dispose d’un budget de 360 millions de livres (environ 480 millions de dollars), ce qui en fait l’un des laboratoires publics d’évaluation de la sûreté de l’IA les mieux dotés au monde. À titre de comparaison, son équivalent américain, le Center for A.I. Standards and Innovation, ne recevra qu’environ 10 millions de dollars cette année. Le modèle britannique suscite l’intérêt de plusieurs capitales : Australie, Canada, Chine, France, Inde, Japon et Singapour ont créé des instituts similaires.

L’administration Trump elle-même étudie des règles de contrôle des modèles d’IA qui s’inspirent de l’approche britannique. « Les entreprises ne peuvent pas être laissées seules pour noter leur propre travail, a déclaré Rishi Sunak dans un entretien. C’est le rôle des institutions démocratiques. »

Un accès privilégié aux modèles les plus sensibles

En avril 2026, Anthropic a dévoilé un nouveau modèle, baptisé Mythos, mais ne l’a pas rendu public, craignant qu’il ne soit capable de détecter et d’exploiter des failles de cybersécurité dans les réseaux mondiaux. L’institut britannique a été la seule organisation gouvernementale non américaine autorisée à tester ce modèle. Ses conclusions, publiées six jours après l’annonce d’Anthropic, ont été largement citées par les experts en sécurité.

Jade Leung, conseillère IA du Premier ministre Keir Starmer et directrice technique de l’institut, s’inquiète néanmoins de la rapidité du développement technologique. « Ce qui me tient éveillée la nuit, c’est la vitesse relative de la technologie par rapport aux institutions comme les gouvernements qui doivent y répondre. »

Des investissements encore insuffisants

Si les efforts britanniques sont salués, le niveau global des investissements dans la sécurité de l’IA reste très inférieur aux sommes consacrées à la construction et à la commercialisation de la technologie. Des chercheurs extérieurs découvrent régulièrement des failles dangereuses : en Italie, des universitaires sont récemment parvenus à tromper un modèle d’IA en utilisant de la poésie pour lui faire fournir des instructions relatives à des explosifs.

Contrairement aux secteurs pharmaceutique ou automobile, il n’existe pas encore de systèmes gouvernementaux systématiques de révision de la sûreté et de la sécurité des IA. Le modèle britannique, qui allie expertise technique pointue et indépendance des laboratoires privés, pourrait offrir une piste pour combler ce vide.