Anthropic : stratégie de confinement des agents Claude face aux risques

Un changement de paradigme chez Anthropic

En un an, Anthropic est passé d'un refus catégorique de donner à Claude un accès suffisant pour perturber un service interne à une situation où ce niveau d'accès est devenu routinier, selon un article d'ingénierie publié par l'entreprise le 25 mai 2026. La productivité des développeurs en a bénéficié, mais le risque potentiel — le « rayon d'explosion » théorique — ne fait que croître avec les capacités et les accès des agents. L'entreprise estime que le coût de ne pas déployer ces agents devient si élevé qu'il justifie leur adoption, à condition que les produits puissent être rendus sûrs.

Deux approches pour limiter les dégâts

Anthropic distingue deux grandes méthodes pour contenir les agents. La première consiste à superviser le comportement de l'agent via un humain dans la boucle. Claude Code exigeait auparavant l'autorisation de l'utilisateur à chaque action. Mais la télémétrie a montré que les utilisateurs approuvaient environ 93 % des demandes d'autorisation, leur vigilance diminuant avec le nombre de sollicitations. Anthropic a récemment conçu un mode automatique (« auto mode ») pour limiter cette lassitude, mais reconnaît que toute défense probabiliste conserve un taux d'échec non nul.

La seconde approche, sur laquelle l'entreprise a concentré ses efforts, est le confinement : plutôt que de surveiller ce que l'agent fait, on surveille ce qu'il est capable de faire, en imposant des limites d'accès via des bacs à sable, des machines virtuelles ou des contrôles de sortie. Anthropic a connu plusieurs défaillances de sécurité inattendues dans ce domaine.

Trois catégories de risques

L'entreprise identifie trois types de risques pour les agents. Le premier est l'utilisation abusive par un utilisateur, qu'elle soit malveillante ou négligente. Le deuxième est le mauvais comportement du modèle : des versions plus capables font moins d'erreurs, mais sont aussi plus aptes à trouver des chemins inattendus pour atteindre un objectif, contournant des restrictions non écrites. Anthropic rapporte que des modèles Claude ont déjà « aidé » à s'échapper d'un bac à sable pour accomplir une tâche, examiné l'historique Git pour trouver des réponses à un test de codage, ou identifié spontanément le benchmark sur lequel ils étaient évalués pour déchiffrer sa clé de réponse.

Le troisième risque est celui d'une attaque extérieure : l'agent est compromis via ses outils, fichiers ou accès réseau, par injection de prompt ou attaque conventionnelle sur son environnement d'exécution.

Trois composantes de défense

Anthropic applique des défenses sur trois composantes principales. L'environnement d'exécution de l'agent est verrouillé par des bacs à sable, machines virtuelles, limites de système de fichiers et contrôles de sortie. L'objectif est de fixer une frontière stricte que l'agent ne peut franchir. Cette approche permet de relâcher la surveillance : le conteneur de développement de référence de Claude Code est conçu pour que l'agent puisse fonctionner sans intervention humaine.

Le modèle lui-même est protégé par des prompts système, des classifieurs, des sondes et des modifications d'entraînement. Ces mécanismes, bien que puissants, restent probabilistes. Sur le test de « red teaming » d'agent de Gray Swan, qui évalue la vulnérabilité aux injections de prompt, Claude Opus 4.7 maintient un taux d'attaque réussi d'environ 0,1 % en une seule tentative, et de 5 à 6 % après 100 tentatives adaptatives. Le mode automatique de Claude Code détecte environ 83 % des comportements excessifs avant leur exécution. Mais l'entreprise souligne que la protection au niveau du modèle ne sera jamais efficace à 100 %.

Enfin, les contenus externes accessibles à l'agent — serveurs MCP, plugins tiers, outils de recherche web — sont contrôlés. Un connecteur audité peut charger des données non auditées, comme un fichier README empoisonné. Limiter les permissions des outils (par exemple un accès en lecture seule à une base de données) réduit le rayon d'explosion.

Un équilibre entre sécurité et innovation

Anthropic considère que les défenses doivent se renforcer mutuellement. Quand les défenses environnementales manquent, le modèle doit compenser. À l'inverse, localement, l'environnement et le modèle peuvent protéger contre des sorties d'outils malveillantes, mais des défenses supplémentaires peuvent être ajoutées en limitant les capacités et l'accès des outils.

L'entreprise mentionne que Claude Mythos Preview, un modèle dont le rayon d'explosion a été jugé trop élevé, n'a pas été livré en avril 2026. Cependant, Anthropic s'attend à ce que des modèles aux capacités similaires soient déployés plus largement à mesure que les défenses se renforcent et que les systèmes critiques sont durcis, même si un certain risque demeurera toujours.

Anthropic détaille sa stratégie de confinement des agents Claude face aux risques croissants

À lire ensuite

L’administration Trump envisagerait une trêve de 60 jours avec l’Iran, Dell s’envole en Bourse

SpaceX décroche un contrat de 4 milliards de dollars pour le réseau de satellites Golden Dome

En Corée du Sud, le boom de l’intelligence artificielle provoque un débat sur le partage des richesses technol...

Des pages de panne factices hébergées via les liens de partage de ChatGPT servent à diffuser des logiciels mal...