Cisco a publié ce lundi son « LLM Security Leaderboard », un classement inédit des grands modèles de langage (LLM) selon leur résistance aux attaques adverses. Destiné aux entreprises, ce tableau vise à les aider à choisir des modèles d’intelligence artificielle plus sûrs face à la multiplication des risques.
Selon Amy Chang, responsable de la recherche sur les menaces liées à l’IA et à la sécurité chez Cisco, « les données de nombreuses études indiquent que l’adoption de l’IA dans les organisations dépasse la préparation en matière de sécurité ». L’indice de préparation à l’IA de la société montre que 83 % des organisations prévoyaient de déployer une IA agentique, mais que seulement 29 % se sentaient prêtes à le faire en toute sécurité. Le nouveau classement offre selon elle « un point de départ concret aux dirigeants et aux équipes de sécurité pour comprendre comment l’IA générative peut être vulnérable à différentes menaces ».
Anthropic en tête, OpenAI dans le top 10
Le classement place largement en tête les modèles de la société Anthropic. Huit des dix premières positions sont occupées par ses modèles Claude. La première place revient à Claude Opus 4.5, suivi de Sonnet 4.5 et de Haiku 4.5. OpenAI parvient à placer deux modèles dans le top 10 : GPT-5.2 (septième) et GPT-5 Nano (neuvième). En bas du classement figurent Mistral avec ses modèles Magistral Small 2509 et Ministral 3 14b Instruct. La liste des dix modèles les moins sécurisés inclut également des modèles de DeepSeek, Cohere, Qwen et xAI.
Les résultats ont été calculés à partir de tests rigoureux mesurant la capacité des modèles à résister à des attaques conçues pour provoquer une réponse nuisible ou malveillante. Ces tests couvrent à la fois les attaques en un seul échange (« single-turn jailbreaks ») et les attaques en plusieurs échanges (« multiturn conversational attacks »). Selon Amy Chang, « de nombreux benchmarks se concentrent principalement sur les jailbreaks en un seul échange. Notre classement évalue explicitement les attaques conversationnelles en plusieurs tours, qui reflètent mieux le comportement adversaire réel, où les attaquants tentent de dégrader les garde-fous des modèles sur des conversations plus longues ».
Une méthodologie ouverte pour limiter les biais
Cisco insiste sur la transparence de sa démarche. La méthodologie complète a été publiée en ligne afin que chacun puisse comprendre comment les conclusions ont été atteintes et comparer les modèles. L’entreprise précise qu’aucun garde-fou ou mesure de sécurité supplémentaire n’a été ajouté pour améliorer les performances des modèles testés. Le classement, le cadre de sécurité et la méthodologie sont accessibles librement sur le site dédié.
Cette ouverture tranche avec d’autres pratiques : certaines entreprises, comme Microsoft, fournissent des scores de sécurité pour les modèles dans leurs offres internes, mais cette visibilité reste limitée à un sous-ensemble de clients. En rendant son classement public, Cisco soumet les concepteurs de modèles à un examen plus large, notamment de la part des responsables d’entreprises que ces laboratoires d’IA cherchent à séduire. La pression ainsi exercée pourrait inciter les développeurs à renforcer la sécurité de leurs modèles.
Le classement de Cisco intervient alors que l’adoption de l’IA générative s’accélère dans les entreprises, soulevant des questions sur la sécurité des données et la robustesse des systèmes face aux tentatives de contournement des garde-fous éthiques et techniques.