Un problème de confiance fondamentale
Dans un contexte où des géants technologiques comme Alphabet expérimentent des assistants IA pour les élections locales américaines, la question de la fiabilité des systèmes générés par intelligence artificielle prend une acuité particulière. Un document technique récent analyse en profondeur l'applicabilité des principes de chaîne de confiance – traditionnellement utilisés en cybersécurité – aux artefacts produits par des agents d'IA.
La chaîne de confiance est un concept fondamental en ingénierie informatique, où la sécurité repose sur la vérification de l'intégrité et de l'authenticité de chaque composant, depuis une racine de confiance jusqu'à l'application finale. Ce mécanisme, utilisé dans les processus de démarrage sécurisé (secure boot), les modules de plateforme de confiance (TPM) ou encore la signature de code, fonctionne sur plusieurs postulats : les composants doivent être identifiables de manière unique, leur intégrité vérifiable cryptographiquement, et leur comportement déterministe et prévisible.
La rupture avec les systèmes déterministes
L'étude met en évidence une différence fondamentale entre un logiciel classique et un artefact généré par IA. Là où un chargeur d'amorçage exécute une logique prédéterminée, un système d'IA récent introduit des couches non déterministes : interprétation, raisonnement, transformation et génération. Cela déplace la question centrale de « Pouvons-nous vérifier ce composant pour établir la confiance ? » vers « Pouvons-nous vérifier que ce composant a correctement interprété et implémenté l'intention du composant précédent ? ».
L'auteur imagine une chaîne de confiance hypothétique pour un logiciel généré par IA : « Intention humaine -> Invite (prompt) -> Agent de planification -> Agent de recherche -> Agent de codage -> Agent de test -> Pipeline de déploiement -> Système de production ». Chaque étape introduit une possibilité de divergence entre l'intention initiale et le résultat final.
L'écart d'intention, un défi insurmontable ?
Le document illustre ce qu'il appelle « l'écart d'intention » avec un exemple : une invite demandant « Implémenter une authentification sécurisée ». Face à cette instruction, différents agents peuvent générer des implémentations variées, certaines sécurisées, d'autres non. Bien que le code final puisse être vérifié par un outil approuvé, ce processus ne permet pas de s'assurer que l'implémentation reflète fidèlement l'intention originale. La confiance est rompue à la frontière entre l'intention et son interprétation.
Provenance contre confiance
L'étude reconnaît que les systèmes d'IA peuvent fournir une traçabilité croissante : version du modèle, historique des invites, actions des agents, invocations d'outils, artefacts générés, résultats de tests et analyses de sécurité. Un déploiement futur pourrait inclure des invites signées, des modèles vérifiés, des environnements d'inférence attestés, des sorties cryptées et signées, ainsi que des journaux d'audit immuables.
Ces mécanismes créent une chaîne de possession vérifiable, permettant de répondre à des questions comme « Quel modèle a été utilisé ? », « Quelles invites ont été employées ? », « Quels tests ont été exécutés ? ». Néanmoins, l'auteur insiste sur une distinction cruciale : la provenance n'est pas la confiance. La provenance répond à la question « D'où vient cet artefact ? », tandis que la confiance répond à « Cet artefact mérite-t-il d'être fiable ? ».
Des implications pour les systèmes électoraux
Cette analyse intervient alors que les outils d'IA pour l'information électorale, comme ceux testés pour les scrutins locaux, soulèvent des inquiétudes quant aux risques de désinformation. Si un assistant IA fournit des informations erronées sur les procédures de vote, les conséquences peuvent être graves. La difficulté à établir une chaîne de confiance pour les artefacts d'IA signifie que même avec une traçabilité parfaite, la fiabilité intrinsèque de l'information produite reste incertaine.
Vers de nouvelles approches
L'étude ne conclut pas à l'impossibilité absolue d'établir une confiance dans les systèmes d'IA, mais suggère que les modèles traditionnels de chaîne de confiance doivent être repensés en profondeur. Plutôt que de chercher à propager la confiance de manière linéaire, il pourrait être nécessaire d'adopter des approches probabilistes ou fondées sur des garanties statistiques, tout en maintenant des mécanismes de vérification humaine pour les décisions critiques.