Synthèse des performances

En mai 2026, le paysage des modèles de langage à poids ouverts (open-weight) connaît une transformation majeure. Les modèles d'environ 27 à 35 milliards de paramètres actifs franchissent désormais le seuil de performance de pointe sur les tests de codage et de raisonnement, mais seulement lorsqu'ils sont évalués dans des conditions comparables. Une analyse indépendante montre que les scores des modèles Qwen3.6 d'Alibaba, Gemma 4 de Google DeepMind et DeepSeek V4 ont été collectés selon des protocoles différents (échafaudage d'agents, températures, mode réflexion ou non), ce qui rend les comparaisons directes imprécises. Après normalisation des différences méthodologiques, plusieurs conclusions émergent.

Architecture : le choix entre dense et MoE

L'architecture prime sur le nombre de paramètres dans la gamme 27-35 milliards. Le Qwen3.6-27B, un modèle dense de 27 milliards de paramètres, surpasse son prédécesseur Qwen3.5-397B-A17B (un modèle MoE) sur le benchmark SWE-bench Verified avec 77,2% contre environ 76,2%, tout en n'utilisant qu'un quinzième du nombre total de paramètres et un soixantième des paramètres actifs. Cette performance est rendue possible par une architecture hybride combinant Gated DeltaNet et Gated Attention, où 75% des couches utilisent un style d'attention linéaire (DeltaNet) pour une efficacité accrue sur les longs contextes. Ce résultat remet en cause le paradigme dominant du MoE : les modèles denses s'avèrent plus efficaces dans la fourchette 27-80 milliards de paramètres actifs, tandis que le MoE domine au-delà d'environ 200 milliards.

Le modèle dense optimal : Qwen3.6-27B sur du matériel grand public

Le Qwen3.6-27B se distingue comme le meilleur modèle pour le codage sur du matériel accessible au grand public. Il fonctionne sur une seule carte RTX 4090 (24 Go de VRAM en quantification Q4, soit environ 16,8 Go d'empreinte mémoire) et obtient 77,2% sur SWE-bench Verified, 94,1% sur AIME 2026 (mathématiques) et 87,8% sur GPQA Diamond (sciences). C'est le seul modèle de sa catégorie à associer des performances de pointe en codage, mathématiques et vision multimodale, avec un déploiement possible sur une seule carte graphique, sous licence Apache 2.0.

DeepSeek V4-Pro : la puissance du codage à l'échelle du datacenter

DeepSeek V4-Pro offre la meilleure performance brute en codage, mais nécessite une infrastructure de datacenter. Avec 1 600 milliards de paramètres totaux et 49 milliards de paramètres actifs, il atteint 93,5% sur LiveCodeBench v6 et 80,6% sur SWE-bench Verified, les meilleurs scores parmi les modèles ouverts. Cependant, son déploiement nécessite environ 400 Go de VRAM (un cluster de 8 cartes H100), ce qui le rend irréaliste pour la plupart des organisations. Via API, son coût est de 0,435 dollar par million de tokens en entrée et 0,87 dollar en sortie, soit environ 34 fois moins cher que Claude Opus, mais son utilisation économique n'est viable qu'à grande échelle.

Les trois philosophies de conception

La comparaison des trois familles de modèles révèle trois approches distinctes. Alibaba mise sur l'efficacité dense et une architecture hybride innovante, Google DeepMind sur des modèles MoE compacts (Gemma 4 propose des variantes de 9 et 26 milliards de paramètres actifs avec 4 milliards activés) optimisés pour les téléphones et les applications embarquées, tandis que DeepSeek repousse les limites de l'échelle MoE avec des modèles massifs mais coûteux à déployer. Les benchmarks montrent que, une fois normalisés, Qwen3.6-27B et Gemma 4-26B-A4B sont très proches sur la plupart des tâches, avec un léger avantage pour Qwen en mathématiques et sciences.

Implications et perspectives pour le second semestre 2026

Plusieurs tendances se dégagent pour l'avenir proche. Le point idéal (sweet spot) des modèles ouverts s'est déplacé vers les 27-35 milliards de paramètres actifs, offrant des performances de pointe sur une seule carte grand public. La course aux MoE est loin d'être terminée : les modèles hybrides ou denses pourraient encore gagner en efficacité. Le multimodale devient la norme, tous les nouveaux modèles intégrant la vision. Le codage agentique (agentic coding) s'impose comme l'usage définissant la valeur des modèles, avec des scores SWE-bench dépassant 75%. Enfin, la compression des prix va se poursuivre : les API des modèles ouverts sont déjà plusieurs fois moins chères que les modèles propriétaires.

Les risques identifiés incluent le manque de vérification indépendante de nombreux benchmarks auto-déclarés, les incertitudes sur les capacités réelles de long contexte, et les questions de confiance et de transparence concernant les modèles chinois. La distinction entre poids ouverts (open-weight) et véritable open-source reste floue, plusieurs modèles imposant des clauses d'utilisation restrictives malgré des licences permissives.