Un changement de paradigme nécessaire

Dans un nouvel article publié sur la plateforme arXiv le 18 mai 2026, quatorze chercheurs en cybersécurité, issus de domaines aussi variés que les systèmes d'exploitation, les réseaux, les méthodes formelles et l'apprentissage automatique adversarial, posent un constat clair : la sécurité des agents d'intelligence artificielle (IA) ne peut pas être résolue en améliorant uniquement la robustesse des modèles sous-jacents. Ils soutiennent que l'approche dominante, qui vise à renforcer l'IA contre les attaques, est insuffisante et doit être complétée par des techniques issues de la sécurité des systèmes.

Le modèle d'IA, un composant non fiable

Les auteurs prennent position en affirmant que le modèle d'IA qui alimente un agent doit être considéré comme un composant non fiable. En conséquence, les invariants de sécurité doivent être appliqués au niveau du système, et non pas au niveau du modèle seul. Cette perspective, bien ancrée dans les travaux antérieurs en sécurité des systèmes, permettrait d'obtenir des garanties prévisibles pour les systèmes agentiques. Les chercheurs estiment que s'en remettre exclusivement à la robustesse du modèle expose les agents à des failles exploitables qui seraient autrement bloquées par des mécanismes systémiques.

Onze attaques réelles analysées

Pour étayer leur démonstration, les scientifiques ont analysé onze attaques réelles ciblant des agents d'IA. Ils montrent comment des principes de conception issus de la sécurité des systèmes — tels que la séparation des privilèges, la vérification formelle des flux de données ou l'application de politiques de sécurité à l'exécution — auraient pu, s'ils avaient été mis en œuvre, empêcher ou limiter ces attaques. Cette analyse concrète renforce l'idée que les vulnérabilités des agents ne sont pas uniquement dues à des faiblesses de l'IA, mais aussi à une architecture insuffisamment protégée.

Des principes éprouvés à adapter

S'appuyant sur plusieurs décennies de recherche en sécurité des systèmes, les auteurs énoncent un ensemble de principes fondamentaux qui pourraient servir de base à la conception d'agents plus sûrs. Parmi ces principes figurent la minimisation des privilèges, la défense en profondeur, la séparation des domaines d'exécution, et l'utilisation de mécanismes de référence (reference monitors) pour contrôler les interactions entre l'agent et son environnement. Ces techniques, déjà utilisées dans les systèmes d'exploitation et les réseaux, doivent être adaptées au contexte spécifique des agents d'IA, ce qui représente un défi de recherche important.

Les défis à relever

Bien que la voie soit tracée, les chercheurs identifient plusieurs obstacles majeurs. L'un d'eux est la difficulté d'appliquer des mécanismes formels à des modèles d'IA dont le comportement est intrinsèquement probabiliste et difficile à prévoir. Un autre défi réside dans l'intégration des contraintes de sécurité sans entraver la flexibilité et l'efficacité des agents. Enfin, la standardisation des interfaces entre composants système et modèles d'IA reste à construire. L'article appelle donc à une collaboration entre spécialistes de la sécurité des systèmes et de l'apprentissage automatique pour relever ces défis.

Un appel à la communauté

En publiant ce travail, les auteurs espèrent orienter les efforts de recherche vers une approche plus systémique de la sécurité des agents. Ils insistent sur le fait que la sécurité ne peut être garantie par un simple durcissement des modèles, mais nécessite une refonte architecturale. Cette publication pourrait influencer les futures normes et pratiques de développement d'agents d'IA, tant dans le monde académique que dans l'industrie.