Une liste de latences largement utilisée dans la communauté informatique a été actualisée en 2026 pour refléter les performances des systèmes modernes, notamment celles des modèles de langage de grande taille (LLM). Initialement compilée par Jeff Dean et Peter Norvig, cette référence compare des opérations allant de l’accès au cache L1 (0,5 nanoseconde) à un aller-retour intercontinental (150 millisecondes). Les nouvelles entrées consacrées à l’intelligence artificielle marquent un tournant dans les ordres de grandeur que tout programmeur doit maîtriser.

Les nouveaux repères pour l’inférence des LLM

Pour la première fois, la liste distingue plusieurs niveaux de matériel et de modèles. Sur une carte graphique grand public (consumer GPU) en 2026, la génération d’un token avec un petit modèle local prend 15 millisecondes – soit 15 millions de nanosecondes. Ce temps est comparable à une recherche sur disque mécanique (10 ms) mais bien plus long qu’une lecture séquentielle en mémoire (250 microsecondes). À l’opposé, un modèle de pointe hébergé (frontier LLM) met 20 ms par token, tandis que le temps avant le premier token (time to first token) peut atteindre une seconde sans cache pour un modèle frontalier, et jusqu’à 250 ms sur du matériel d’inférence spécialisé.

Le document inclut également des scénarios plus lourds : un préremplissage de contexte long (environ 100 000 tokens d’entrée) nécessite 10 secondes, et une réponse avec raisonnement (‘thinking’) peut monter à 30 secondes pour un seul appel. Ces chiffres montrent que l’inférence LLM, même locale, s’inscrit désormais dans l’échelle des millisecondes à secondes, là où les opérations classiques se mesurent en nanosecondes ou microsecondes.

Une comparaison avec les latences historiques

La liste conserve les valeurs traditionnelles : accès L1 (0,5 ns), échec de prédiction de branche (5 ns), référence mémoire principale (100 ns), lecture aléatoire de 4 Ko sur SSD (150 µs), aller-retour dans un centre de données (500 µs), recherche disque (10 ms). Les nouvelles métriques LLM s’insèrent entre ces repères : un token local (15 ms) est plus lent qu’une lecture séquentielle de 1 Mo depuis un SSD (1 ms) mais plus rapide qu’un aller-retour Californie-Pays-Bas (150 ms). Le temps de réponse complet d’un LLM frontalier (3 secondes pour une centaine de tokens) dépasse largement tout ce qui était listé auparavant, à l’exception des transferts intercontinentaux.

Implications pour la conception logicielle

Ces données rappellent que l’intégration d’appels à des LLM dans des applications doit tenir compte de latences qui peuvent atteindre plusieurs secondes. Les développeurs doivent désormais considérer l’inférence comme une opération d’entrée-sortie asynchrone, au même titre qu’un accès disque ou un appel réseau. La distinction entre modèle local sur GPU, sur CPU, et modèle hébergé devient cruciale pour le dimensionnement des systèmes temps réel.

Origine et crédits

Le document original, popularisé par Jeff Dean chez Google et Peter Norvig, a été enrichi au fil des ans par des contributions de la communauté. La version 2026 intègre des mesures recueillies sur du matériel courant, avec des notes précisant les conditions (petit modèle sur GPU consommateur, modèle frontalier avec ou sans cache). Les programmeurs sont invités à utiliser ces repères pour estimer les performances de leurs applications et éviter les surprises à l’échelle de production.