Les limites de la détection de l'IA : l'outil Pangram au cœur des controverses

L'outil de détection de textes générés par intelligence artificielle Pangram se trouve au centre de nombreuses polémiques récentes. En mars, un roman d'horreur publié par une grande maison d'édition a été retiré quelques jours avant sa sortie aux États-Unis, en partie parce que Pangram avait estimé que le texte avait été produit par une IA. L'outil a également été utilisé pour contester des articles parus dans plusieurs grands quotidiens, des nouvelles ayant reçu un prix littéraire prestigieux et, plus récemment, des passages de l'encyclique du pape Léon XIV qui mettait en garde contre les dangers de l'intelligence artificielle. Universités et associations scientifiques l'emploient pour vérifier les travaux étudiants et les articles de recherche.

L'entreprise derrière Pangram affirme que son algorithme ne se trompe qu'une fois sur dix mille environ lorsqu'il s'agit de qualifier un texte de généré par IA. Max Spero, son directeur général, a déclaré ressentir « une grande responsabilité, un poids énorme » en prononçant un tel verdict, ajoutant que son équipe ne le fait que lorsqu'elle est « extrêmement confiante ». Une étude menée par l'Université de Chicago sur environ trois mille échantillons de cinq cents à mille mots chacun n'a relevé quasiment aucun faux positif.

Un taux d'erreur plus élevé pour les faux négatifs

En revanche, la capacité de Pangram à garantir qu'un texte est bien d'origine humaine semble moins fiable. Selon Max Spero, le taux de faux négatifs – c'est-à-dire la fréquence à laquelle le modèle étiquette par erreur un contenu comme humain – serait de l'ordre d'un sur soixante-dix, même si d'autres évaluations le jugent plus performant. L'outil est pris dans une course aux armements avec les grands laboratoires d'IA, qui cherchent à rendre les productions de ChatGPT et Claude toujours plus naturelles. Parallèlement, des programmes dits « humaniseurs », conçus pour masquer l'origine artificielle d'un texte, compliquent encore la tâche.

Un enseignant d'un lycée public de New York a confié avoir passé des copies d'élèves dans Pangram et obtenu un résultat « 100 % humain » alors qu'il suspectait fortement l'utilisation d'une IA. Connaissant le niveau de ses étudiants et les antécédents de certains d'entre eux en matière de tricherie, il juge l'outil insuffisant. Il a préféré garder l'anonymat pour pouvoir s'exprimer librement sur ses doutes.

Des « humaniseurs » qui trompent facilement la détection

Un test a été réalisé avec un humaniseur nommé Walter Writes AI, très discuté sur les forums. Des articles courts ont été produits par ChatGPT et Claude, puis passés dans ce programme. Celui-ci a procédé à des reformulations anodines et à des modifications grammaticales. Par exemple, la phrase de ChatGPT « Les chiffres ne sont plus assez petits pour être ignorés » est devenue « L'ampleur de ces chiffres d'utilisation ne peut plus être ignorée ». Chaque fois que le résultat de l'humaniseur a été soumis à Pangram, celui-ci l'a considéré comme rédigé par un humain.

Un risque de dérive accusatoire

Si un détecteur majoritairement fiable peut sembler rassurant, certains craignent qu'il n'encourage une chasse aux sorcières. Des accusations fondées sur des preuves uniquement fournies par un algorithme pourraient se multiplier, sans que ses limites soient pleinement comprises. La question de la charge de la preuve et de la marge d'erreur devient centrale dans les milieux académiques et éditoriaux.

Les limites de la détection de l'IA : l'outil Pangram au cœur des controverses

À lire ensuite

Accenture rachète Ookla, maison mère de Speedtest et Downdetector

SoftBank va investir 75 milliards d’euros en France pour bâtir la plus grande infrastructure d’IA d’Europe

Hantavirus : le navire Hondius autorisé à reprendre la mer après désinfection

Une faille de contournement d'authentification de PAN-OS activement exploitée