Alors que l’intelligence artificielle générative transforme le quotidien des développeurs, une analyse publiée en ligne par l’ingénieur Nidhish Shah met en garde contre un effet pervers : les meilleurs ingénieurs risquent de régresser vers la moyenne lorsqu’ils délèguent trop de jugement aux modèles de langage. « Le développeur 10x régresse vers la moyenne », résume-t-il dans un article intitulé « Why Good Engineers Become Worse With AI ».

Un effet asymétrique

L’auteur s’appuie sur le concept de régression vers la moyenne, formalisé par Francis Galton en 1886. Les modèles de langage, par construction, échantillonnent la continuation la plus probable d’une séquence, c’est-à-dire la moyenne de la distribution d’entraînement. L’effet est asymétrique : sur les tâches courantes, un ingénieur talentueux devient cent fois plus efficace ; sur un travail novateur, le même ingénieur est ramené vers la moyenne, produisant un code qui semble correct mais ne l’est pas.

Pour illustrer ce phénomène, Shah a mené une expérience à partir d’un article de l’ICML 2026 dont la contribution principale est une formule de noyau d’attention. Il a extrait l’implémentation, puis a soumis au modèle DeepSeek V4 Pro une signature de fonction et une docstring, en capturant les log-probabilités de la complétion. Le résultat montre sept lignes identiques à l’original, mais une ligne différente : là où l’article écrit S**2 / (C - 2*S) (le noyau Yat, cœur de la publication), le modèle a généré torch.relu(S) + 1e-6. Le modèle a échantillonné parmi les fonctions positives courantes – ReLU, softplus, exp – sans inclure la formule inédite. Le code est structurellement correct, mais la ligne cruciale est fausse.

L’importance d’un vérificateur

Shah distingue ce cas des succès récents de l’IA dans les mathématiques. En mai 2026, OpenAI a annoncé avoir réfuté la conjecture des distances unitaires d’Erdős, un problème ouvert depuis 1946, tandis que DeepMind, avec AlphaProof Nexus, a résolu neuf des 353 problèmes ouverts d’Erdős la même semaine. Ces deux avancées reposent sur une structure identique : le modèle génère des constructions candidates, puis un vérificateur formel (Lean) valide chaque proposition. « Une preuve compile ou ne compile pas », note Shah. L’expérience sur le noyau d’attention ne dispose d’aucun oracle : le modèle génère une seule complétion, rien ne la vérifie, et le token le plus probable est ReLU. Les log-probabilités montrent une incertitude sur cette ligne, mais sans vérification en aval, l’incertitude se résout en leçon modale.

Un problème qui persiste

On pourrait penser que le problème se résout de lui-même : la publication de l’article enrichira les données d’entraînement des modèles suivants. Mais Shah souligne que la frontière de la connaissance se situe toujours après la date de coupure des données, et que les travaux les plus à forte valeur ajoutée ne sont jamais publiés. « Les algorithmes de trading haute fréquence, l’infrastructure des GAFAM, les systèmes de risque bancaire restent derrière les murs des entreprises », écrit-il. Il existe toujours une queue de distribution, et les meilleurs ingénieurs y travaillent.

Diagnostiquer la rareté

La rareté est le signal diagnostique. Le code d’application standard se situe près du centre de la distribution, et le modèle l’améliore. Les motifs rares se trouvent dans la queue, où les modèles les sous-apprennent et produisent quelque chose de même forme, confiant mais erroné. « Les ingénieurs qui restent performants savent quelles lignes portent la contribution. Le modèle ne le sait pas. Si vous avez délégué le jugement sur les lignes importantes, c’est vous qui régressez », conclut Shah.