doubleAI dévoile des performances record sur le benchmark SOL-ExecBench

doubleAI a annoncé que son système WarpSpeed a surpassé les implémentations de référence optimisées de NVIDIA sur 90 % des 235 problèmes du nouveau benchmark SOL-ExecBench. Ce dernier, récemment publié par NVIDIA, compile les noyaux CUDA les plus exigeants issus de modèles de production réels, notamment DeepSeek, Qwen, Gemma, Kimi et Stable Diffusion.

Selon les résultats communiqués par doubleAI, WarpSpeed a atteint une accélération moyenne de 2,24 fois par rapport aux bases de référence optimisées de NVIDIA, après une seule journée de fonctionnement. Le système s'est classé en tête des quatre ensembles de problèmes du benchmark, tant en nombre de problèmes battant la référence qu'en gain de performance moyen.

Comparaison avec les résultats antérieurs

Pour mettre ces chiffres en perspective, l'entreprise indique que le précédent résultat majeur sur ce benchmark avait été obtenu par Cursor en avril 2026. Selon ces informations, le système multi-agent de Cursor avait tourné pendant trois semaines et battu la référence optimisée sur 63 % des problèmes, avec une accélération moyenne de 1,38 fois. Les performances de WarpSpeed dépassent donc significativement ce premier palier.

Des gains particulièrement marqués sur les noyaux de quantification

Le communiqué précise que tous les ensembles de problèmes ne présentent pas le même potentiel d'optimisation. Les gains les plus importants ont été observés sur les noyaux de quantification (NVFP4 et FP8), le routage de mélange d'experts (MoE) et les couches de projection. Le noyau le plus rapide parmi ceux-ci est un noyau d'attention interrogée par groupe NVFP4, qui constituerait le cœur de l'inférence NVFP4 pour tout transformateur moderne. Ce noyau fonctionne quasiment à la vitesse limite pour cette charge de travail et serait 14,9 fois plus rapide que la référence optimisée.

Architecture de WarpSpeed

WarpSpeed est présenté par doubleAI comme une intelligence experte artificielle dédiée à l'ingénierie de performance. Le système conçoit, implémente, vérifie, spécialise et ajuste des noyaux artisanaux pour tout matériel cible, y compris les GPU et les CPU, dépassant souvent les performances du code écrit par des experts. Le cadre de vérification, la boucle d'apprentissage et les techniques de raisonnement qui le sous-tendent avaient été détaillés dans une publication précédente de l'entreprise.

L'importance de la vérification

doubleAI insiste particulièrement sur l'aspect de la vérification dans son approche. L'entreprise considère qu'un noyau rapide mais incorrect est pire qu'un noyau lent mais correct. Pour un système agentique générant des noyaux à grande échelle, le harnais d'évaluation et le vérificateur sont les seuls éléments permettant de distinguer les deux.

Le benchmark SOL-ExecBench est décrit comme une avancée réelle par rapport aux benchmarks précédents. L'essentiel de l'ingénierie de son harnais vise à durcir le chemin de mesure contre la manipulation des récompenses : chaque soumission s'exécute dans un sous-processus isolé avec les horloges de multiprocesseur de flux verrouillées, le cache L2 est vidé entre les itérations, les pointeurs sont décalés pour contrer la mise en cache des adresses de données, et les événements CUDA ont été remplacés par un traçage d'activité CUPTI, qui capture les horodatages des noyaux sur chaque flux et ferme une faille courante où du travail est caché sur des flux latéraux que le minuteur ne voit pas.

doubleAI souligne toutefois que les vérificateurs d'ExecBench sont écrits par des humains et conçus pour se défendre contre les erreurs humaines. La distribution des erreurs ou des manipulations tentées par des agents serait d'une nature entièrement différente. La question posée par l'entreprise est de savoir ce que ces vérificateurs permettent malgré tout.

Composition du benchmark

Les 235 problèmes du benchmark sont répartis en quatre ensembles : des noyaux atomiques à opération unique extraits d'architectures de modèles réels (L1), des blocs multi-opérations fusionnés comme les couches de décodeur (L2), des noyaux de basse précision FP8 et NVFP4 (Quant), et des primitives d'inférence tracées directement depuis les piles de service de vLLM et SGLang pour Llama-3.1-8B, Qwen3-30B-A3B et DeepSeek-V3 (FlashInfer-Bench). WarpSpeed bat la référence PyTorch optimisée sur la grande majorité des problèmes dans chacun de ces ensembles.