Un an après les premiers signes de divergence, le monde de la technologie connaît une fracture structurelle entre deux économies distinctes. L'analyste Pierre-Carl Langlais, dans une analyse publiée en mai 2026, retrace l'origine et les mécanismes de ce découplage qui a vu les valorisations des laboratoires d'IA et de leurs infrastructures exploser tandis que les services cloud et SaaS subissaient la plus forte vente depuis le début de la pandémie.

Un découplage amorcé en mai 2025

Selon cette analyse, tout a commencé exactement il y a un an, en mai 2025. L'indice composé SaaS de Bessemer a décroché par rapport au Nasdaq général, signalant une séparation qui est restée longtemps inaperçue. Ce n'est qu'au début de l'année 2026 que le marché a pleinement pris conscience de ce fossé. Désormais, deux écosystèmes sans connexion cohabitent, avec des perspectives de croissance, des multiples de valorisation, des réseaux d'investissement et une capacité d'attraction des talents radicalement différents.

L'architecture MoE au cœur du changement

La cause profonde de cette scission réside dans une innovation de rupture : l'architecture des modèles à experts mélangés (Mixture of Experts, MoE) de plus en plus sparse. Depuis trois ans, les grands laboratoires d'IA développent des architectures MoE qui rendent l'inférence à la fois très rentable et compressent les marges de la production logicielle. L'analyse souligne que des outils comme Claude Code ou Codex ont pu voir le jour parce que les modèles ont surmonté un compromis difficile. En 2026, les laboratoires de pointe exécutent des milliards de sessions agentiques entrelacées avec de grands contextes pré-remplis. Cela était impossible dix-huit mois auparavant.

Pour y parvenir, il faut simultanément garantir une haute performance, un débit élevé et une capacité de contexte longue, les utilisateurs consommant couramment des centaines de milliers de tokens. L'architecture dominante est celle d'un mélange sparse d'experts avec quantification native. Le routage des experts est en lui-même une forme d'optimisation économique : il repose sur le fait que la plupart des tâches sont intrinsèquement modulaires et ne nécessitent qu'un espace de recherche relativement limité à un instant donné. De même, l'inférence en long contexte est devenue abordable car les modèles apprennent à gérer leur contexte, sans devoir conserver en mémoire des centaines de milliers de tokens de manière égale.

Une économie de l'inférence à haute marge

L'analyse met en évidence que le marché MoE est conçu pour être très rentable. L'inférence devient moins coûteuse de plusieurs ordres de grandeur à condition de disposer simultanément d'assez de puissance de calcul et d'assez de demande. Cela crée une barrière à l'entrée élevée : les modèles denses de taille moyenne ont cessé d'être compétitifs face aux grands MoE. La barrière est aussi technique et intellectuelle, nécessitant une compréhension systémique du fonctionnement de composants très complexes.

Pénurie de GPU et concentration accélérée

L'émergence soudaine des économies d'échelle MoE explique rétroactivement la pénurie actuelle de GPU. De manière contre-intuitive, la chaîne matérielle n'avait pas anticipé un boom de l'IA. La demande était principalement tirée par les besoins élevés en calcul des grandes plateformes (Google, Meta, TikTok) et avait été délibérément comprimée après les cycles de boom et d'effondrement de l'après-pandémie. Les économies MoE exigent que quelques grands laboratoires (et, dans une bien moindre mesure, de nouvelles infrastructures) montent en capacité très rapidement au niveau de grandes unités GPU. Il n'y a pas assez de fongibilité sur le marché actuel pour absorber une telle poussée. À son tour, la pénurie d'infrastructure accélère la concentration, car le coût d'entrée augmente à la fois financièrement et institutionnellement. Une conséquence durable pourrait être de pousser les grands laboratoires vers l'autonomie en matière de puces et la conception matérielle. Google et Meta mènent déjà des programmes de développement matériel pluriannuels, et le dernier rapport du modèle DeepSeek incluait une liste de souhaits pour le développement des puces de Huawei. La co-évolution matériel-modèle pourrait ancrer la concentration du marché pour des années.

La thèse de la commoditisation remise en cause

L'analyse remet également en cause l'idée largement répandue selon laquelle les modèles de base se commoditiseraient. L'architecture MoE permet aux grands laboratoires de fixer des prix discrétionnaires : des prix d'API très élevés pour les intermédiaires et des prix d'abonnement pour l'acquisition directe de clients proches des coûts effectifs. La disponibilité des poids ouverts peut même, paradoxalement, être un signe de moindre commoditisation. En suivant l'exemple de DeepSeek, les grands laboratoires estiment pouvoir libérer des modèles avancés en raison de la spécificité de leur pile technique interne et de la conception de leurs kernels personnalisés. En 2026, l'écosystème de l'inférence tierce est incapable de soutenir une thèse de commoditisation : même là où ils sont compétitifs sur les prix, les fournisseurs d'inférence de modèles ouverts ne parviennent pas à réaliser les marges des laboratoires de pointe.

Vers une nouvelle cartographie économique

Ce découplage redéfinit des hypothèses fondamentales sur ce qu'est un produit dans l'économie numérique. L'analyse suggère que les modèles MoE sont devenus le véritable produit, absorbant la couche applicative construite autour de l'IA. La séparation entre le monde du logiciel et celui de l'IA n'est pas simplement conjoncturelle mais structurelle, ancrée dans des innovations d'architecture et d'ingénierie. Les implications pour les investisseurs, les entrepreneurs et les régulateurs sont considérables, alors que l'économie de l'IA poursuit sa trajectoire de concentration et de hautes marges.