Une remise en cause des « sociétés d’IA »

L’utilisation de grands modèles de langage (LLM) pour modéliser le comportement collectif humain – ce que les chercheurs appellent des « sociétés d’IA » – s’est répandue ces dernières années. Pourtant, la rigueur méthodologique de ces simulations est désormais contestée. Dans un article soumis en septembre 2025 et mis à jour en avril 2026, intitulé « The PIMMUR Principles: Ensuring Validity in Collective Behavior of LLM Societies », des chercheurs issus de plusieurs institutions passent au crible 39 études récentes. Ils identifient six catégories de défauts récurrents, synthétisés sous l’acronyme PIMMUR : profil des agents, interaction, mémoire, contrôle, absence de conscience (unawareness) et réalisme.

Un constat accablant : près de 90 % des études en défaut

L’audit systématique mené par les auteurs révèle que 89,7 % des études analysées violent au moins l’un des six principes PIMMUR, ce qui compromet selon eux la validité des simulations. Plus précisément, les chercheurs démontrent que les LLM les plus avancés identifient correctement l’expérience sociale sous-jacente dans 50,8 % des cas. Par ailleurs, 61,0 % des instructions (prompts) exercent un contrôle excessif qui pré-détermine les résultats, biaisant les observations.

Des phénomènes « émergents » qui s’évanouissent

Pour étayer leur critique, les auteurs ont reproduit cinq expériences représentatives – dont le célèbre « téléphone arabe » (telephone game). Leurs résultats montrent que lorsque les principes PIMMUR sont rigoureusement appliqués, les phénomènes collectifs initialement rapportés disparaissent ou s’inversent. Selon l’étude, une grande partie des comportements « émergents » décrits dans la littérature seraient en réalité des artefacts méthodologiques, et non le reflet de dynamiques sociales authentiques.

Des biais propres aux modèles plutôt qu’à l’humain

Les chercheurs mettent en garde contre une conclusion trop hâtive : les simulations actuelles captureraient davantage des biais spécifiques aux modèles que des comportements sociaux universels. Ils estiment que ces résultats soulèvent « des préoccupations critiques quant à l’utilisation des LLM comme substituts scientifiques de la société humaine ». Cette remise en question intervient alors que de nombreux travaux utilisent ces modèles pour anticiper des réactions collectives, par exemple en sciences politiques ou en épidémiologie.

Six principes pour une simulation valide

Les auteurs détaillent les six catégories de défauts :

  • Profil des agents : les caractéristiques attribuées aux agents (âge, profession, opinions) sont souvent irréalistes ou stéréotypées, ce qui fausse les interactions.
  • Interaction : les règles d’échange entre agents sont parfois trop simplifiées ou ne reflètent pas la complexité des communications humaines.
  • Mémoire : les agents oublient ou mémorisent des informations de manière non réaliste, ce qui affecte la dynamique collective.
  • Contrôle : les instructions données aux modèles contraignent excessivement les réponses, orientant les résultats vers ce que le chercheur attend.
  • Unawareness (absence de conscience) : les agents ne sont pas informés qu’ils participent à une expérience, ce qui peut modifier leur comportement de manière non contrôlée.
  • Réalisme : le cadre de simulation manque de vraisemblance contextuelle, rendant les résultats difficilement généralisables.

Un appel à une méthodologie plus robuste

L’étude, qui se présente comme un audit de 39 travaux, inclut neuf figures et trois tableaux. Elle a été soumise pour la première fois le 22 septembre 2025 et a connu deux révisions, la dernière datant du 6 avril 2026. Les auteurs – Jiaxu Zhou, Jen-tse Huang, Xuhui Zhou, Man Ho Lam, Xintao Wang, Hao Zhu, Wenxuan Wang et Maarten Sap – appellent la communauté scientifique à adopter ces principes pour garantir la validité des futures simulations. Sans cette rigueur, préviennent-ils, le risque est de prendre des artefacts techniques pour des découvertes sur le comportement humain.