GLM-5.2 : des indices techniques suggèrent une parenté…

Le débat sur l’indépendance réelle du modèle GLM-5.2, récemment salué pour ses performances dans divers classements, prend une nouvelle tournure. Plusieurs méthodes de détection de parenté entre intelligences artificielles suggèrent que le modèle développé par Z.ai pourrait avoir été entraîné, au moins en partie, à partir des réponses générées par Claude Opus 4.5, le modèle phare d’Anthropic.

L’engouement suscité par GLM-5.2 repose sur sa capacité à rivaliser avec les meilleurs modèles propriétaires tout en étant publié sous licence ouverte. Cependant, des observateurs s’interrogent sur la manière dont ce niveau de performance a été atteint. Deux approches complémentaires ont été mobilisées pour tenter de déterminer si un phénomène de distillation — l’apprentissage d’un modèle à partir des sorties d’un autre — a eu lieu.

Une classification par empreinte numérique

La première technique, connue sous le nom de « fingerprinting » (empreinte numérique), consiste à entraîner un classifieur à distinguer les réponses de plusieurs modèles de référence à partir de prompts soigneusement choisis. Ensuite, on soumet au même classifieur les réponses du modèle suspecté d’avoir été distillé, et on observe à quel modèle de référence il l’associe.

Les chercheurs ont constitué un ensemble de neuf modèles représentatifs de l’état de l’art de l’automne 2025 — période où la préparation des données pour GLM-5.2 aurait eu lieu. Parmi eux figuraient des versions de Claude, GPT, Gemini, Llama, Grok, Qwen, Mistral et DeepSeek. Trente et un prompts ont été répartis en trois catégories : discriminative (identité, date de coupure des connaissances, architecture, raisonnement), comportementale (limites de sécurité, résistance aux jailbreaks, honnêteté, respect des politiques) et stylistique (formatage, créativité, respect des contraintes, ton par défaut).

Appliqué aux sorties de GLM-5.2, le classifieur a identifié Claude Opus 4.5 avec un niveau de confiance de 99,6 %, un résultat qui indique une forte similarité dans les modes de réponse.

L’analyse stylistique confirme le rapprochement

Une seconde méthode, la « slop forensics », examine la fréquence d’utilisation de mots et d’expressions rares dans les textes générés. L’idée est que deux modèles qui emploient les mêmes tournures inhabituelles partagent probablement une origine commune.

En comparant les « profils stylistiques » de GLM-5.2 avec ceux d’autres modèles sur des tâches d’écriture créative, les analystes ont placé GLM-5.2 très proche de Claude Opus 4.5. La distance mesurée entre les deux est de 0,767, ce qui est légèrement inférieur à la distance entre Claude Opus 4.6 et Claude Opus 4.5 (0,775). Autrement dit, GLM-5.2 serait stylistiquement plus proche de Claude Opus 4.5 que ne l’est une version ultérieure du même modèle d’Anthropic.

Cependant, les profils ne sont pas identiques : seuls 23 % environ des termes rares sont communs entre GLM-5.2 et Opus 4.5, ce qui laisse une marge de différence importante.

Une conclusion nuancée

Les éléments rassemblés suggèrent qu’au moins une partie des données d’entraînement de GLM-5.2 a été orientée par des sorties de Claude Opus 4.5, que ce soit par distillation directe ou par imitation de style. Cela n’implique pas pour autant que toutes les capacités du modèle soient issues de cette source. Les équipes de Z.ai ont dû concevoir une architecture de modèle, construire des environnements d’apprentissage par renforcement, mettre en place des pipelines de curation de données et développer une infrastructure capable d’entraîner sur des centaines de milliers de GPU.

Certains observateurs soulignent que, quel que soit le jugement éthique ou légal que l’on porte sur la distillation, elle pourrait avoir des conséquences à long terme. Si les laboratoires source renforcent leurs mesures de détection et de protection, la création de nouveaux modèles ouverts de niveau frontière pourrait devenir plus difficile à l’avenir.

En attendant, GLM-5.2 continue de susciter l’intérêt pour ses performances dans les classements de codage et d’agents, tout en alimentant un débat plus large sur la frontière entre inspiration légitime et reproduction non autorisée.

GLM-5.2 : des indices techniques suggèrent une parenté stylistique avec Claude Opus 4.5

Évolution du sujet

À lire ensuite

Le CERT-FR publie une série d'avis sur des failles dans les noyaux Linux de Red Hat, SUSE et Debian, ainsi que...

Multiples vulnérabilités corrigées dans le noyau Linux de Debian

Malgré l'impopularité d'Elon Musk, les ventes de Tesla repartent à la hausse en Europe

Google Play Store : paiements directs aux développeurs autorisés dès le 30 juin