Dans un article technique publié le 30 mai 2026, Anthropic détaille pour la première fois de manière exhaustive l'architecture de « sandboxing » qui encadre ses différents produits basés sur le modèle Claude. L'entreprise décrit un ensemble de barrières – processus, machines virtuelles, limites de système de fichiers et contrôles de trafic sortant – conçues pour définir un périmètre d'action strict pour chaque agent.

Des technologies de confinement adaptées à chaque usage

Le déploiement repose sur des technologies distinctes selon l'environnement. Pour Claude.ai, la solution utilisée est gVisor, un noyau de sandboxing développé par Google qui intercepte les appels système. Pour Claude Code, qui s'exécute localement sur la machine de l'utilisateur, la protection est assurée par Seatbelt sous macOS et par Bubblewrap sous Linux. Quant à Claude Cowork, produit collaboratif, il est isolé dans une machine virtuelle complète : Apple Virtualization Framework sur macOS et HCS sur Windows.

L'objectif, selon Anthropic, est de rendre impossible l'exfiltration de données sensibles, même en cas de contournement par l'utilisateur, par le modèle ou par un attaquant extérieur. « Si les identifiants ne pénètrent jamais dans le bac à sable, ils ne peuvent pas être exfiltrés, quelle qu'en soit la cause », résume l'entreprise.

Des leçons tirées d'incidents passés

Le document publié par Anthropic revient également sur des vulnérabilités qui avaient échappé à ses équipes. L'une d'elles concernait le vecteur d'exfiltration api.anthropic.com/v1/files, qui avait été identifié comme une faille pour Claude Cowork au début de l'année 2026. Ces retours d'expérience ont contribué à renforcer les mécanismes de confinement.

Un appel à la documentation des sandboxing

Le blogueur et développeur Simon Willison, qui a relayé cette publication, a salué la transparence d'Anthropic. Il a souligné que les solutions de sandboxing sont rarement documentées en détail, ce qui rend difficile l'évaluation de leur fiabilité. Il a également signalé que l'outil open source d'Anthropic, le Sandbox Runtime (srt), est désormais suffisamment mature pour être utilisé en pratique.

Un enjeu de confiance pour l'IA agentique

Cette mise à jour intervient alors que les assistants IA agentiques, capables d’exécuter des actions dans l’environnement utilisateur, suscitent des inquiétudes croissantes en matière de sécurité. En rendant publics ses mécanismes de confinement, Anthropic cherche à rassurer les développeurs et les entreprises sur la robustesse de ses protections, sans toutefois révéler l’intégralité des couches de sécurité internes.