Les agents de codage basés sur l'intelligence artificielle, tels que Claude Code et Cursor, sont devenus des outils prisés des développeurs pour leur capacité à lire des fichiers, exécuter des commandes et interagir avec des services externes. Mais une recherche récente montre que cette puissance comporte une faille de sécurité critique : ces agents sont incapables de distinguer une donnée d'une instruction malveillante.

L'attaque en trois étapes

L'équipe Tenet Threat Labs a baptisé cette nouvelle classe de menace « Agentjacking ». Le principe repose sur l'injection d'un unique événement d'erreur falsifié dans Sentry, une plateforme de surveillance d'applications très répandue. Pour y parvenir, l'attaquant n'a besoin que du DSN (Data Source Name) de Sentry, un identifiant public souvent intégré dans le code JavaScript des sites web. Aucune intrusion n'est nécessaire : l'attaquant poste simplement un événement contrefait vers le point d'ingestion de Sentry, qui l'accepte comme une erreur légitime.

L'événement est conçu pour contenir un marquage Markdown formaté de manière à apparaître comme une « résolution » officielle proposée par Sentry. Lorsque le développeur demande à son agent IA d'enquêter sur les erreurs Sentry, celui-ci consulte le serveur MCP (Model Context Protocol) et interprète les données renvoyées comme des instructions fiables. L'agent exécute alors les commandes que l'attaquant a dissimulées, généralement l'installation d'un paquet npm malveillant, avec les privilèges du développeur sur sa propre machine.

Une menace silencieuse et massive

Les chercheurs ont découvert que 2 388 organisations exposent leur DSN Sentry publiquement, ce qui les rend potentiellement vulnérables. Dans le cadre de tests contrôlés, plus de 100 agents ont exécuté les instructions injectées. Les cibles confirmées incluent des entreprises du Fortune 500 ainsi que des développeurs indépendants.

« Les agents d'IA ne peuvent pas faire la différence entre les données qu'ils lisent et une instruction à exécuter », soulignent les chercheurs. « Plantez une commande là où un agent la lira – même à un endroit où aucun humain ne songerait à en chercher une, comme un journal d'erreurs – et l'agent peut simplement l'exécuter. »

Des conséquences potentiellement dévastatrices

Une fois le paquet malveillant installé, l'attaquant peut exfiltrer les variables d'environnement (clés AWS, tokens GitHub, jetons d'authentification Sentry), les identifiants Git, les URL de dépôts privés et l'identité du développeur. Tout cela sans hameçonnage, sans compromission préalable d'un serveur et sans interaction de l'utilisateur en dehors de son flux de travail normal.

« L'innovation ne réside pas dans un exploit inédit, mais dans la facilité et l'échelle auxquelles les agents peuvent être détournés dans la nature », expliquent les experts. « Le seul endroit où l'on peut encore arrêter cette attaque est le moment de l'exécution de l'agent. »

Un défi pour la sécurité de l'IA agentique

L'attaque met en lumière une faiblesse architecturale fondamentale : la confiance implicite accordée par les agents IA aux données renvoyées par les serveurs MCP. Les chercheurs notent que « c'est une limitation des modèles eux-mêmes, pas d'une mauvaise configuration que l'on pourrait corriger par un correctif ». Aucun des contrôles de sécurité existants n'a détecté l'attaque lors des tests, car chaque étape utilise des canaux autorisés.

Cette découverte intervient alors que les entreprises adoptent massivement les agents de codage IA, augmentant d'autant la surface d'attaque. Les chercheurs appellent à repenser la confiance accordée aux données externes par les systèmes d'IA et à intégrer des mécanismes de vérification au moment de l'exécution.