Un modèle qui rompt avec la génération séquentielle

Google DeepMind a officialisé la publication de DiffusionGemma, un modèle d'intelligence artificielle qui se distingue radicalement des approches conventionnelles. Alors que la plupart des grands modèles de langage génèrent du texte de manière linéaire, en prédisant un symbole à la fois de gauche à droite, DiffusionGemma s'inspire des techniques de diffusion employées dans la génération d'images. Le processus part d'une zone de symboles vides, qu'il affine progressivement par itérations multiples jusqu'à obtenir un texte cohérent dans son ensemble. Cette méthode, baptisée « diffusion parallèle », permet de produire jusqu'à 256 jetons en une seule opération, contre un seul jeton à la fois pour les modèles autorégressifs classiques.

Des performances accrues sur des cartes graphiques grand public

D'après les informations communiquées par Google, DiffusionGemma est un modèle de type « mixture d'experts » (MoE) comptant 26 milliards de paramètres au total, dont seulement 3,8 milliards sont activés lors de l'inférence. Cette configuration le rend compatible avec la mémoire vive de 18 Go d'une carte graphique haut de gamme. Lors de tests menés avec une GeForce RTX 5090, le modèle a atteint un débit d'environ 700 jetons par seconde. Avec un accélérateur H100 de Nvidia, ce débit dépasse les 1 000 jetons par seconde. Google indique que cela représente environ quatre fois la cadence des modèles Gemma de taille comparable utilisant une architecture autorégressive.

Des atouts pour des tâches non linéaires

La capacité de DiffusionGemma à auto-corriger de vastes ensembles de jetons le rend particulièrement adapté à des applications qui posent problème aux modèles traditionnels. La démonstration fournie par Google montre ainsi la résolution de grilles de Sudoku, un exercice où chaque symbole dépend des autres et pour lequel la génération séquentielle est peu performante. Google cite également des gains pour l'édition en ligne de textes, le séquençage moléculaire ou encore le traçage de fonctions mathématiques. La société précise que le modèle est téléchargeable sur la plateforme Hugging Face, sous la licence Apache 2.0, au même titre que les autres modèles de la famille Gemma de quatrième génération.

Un compromis entre vitesse et exactitude

L'entreprise reconnaît toutefois que cette approche comporte des limites. Dans les modèles de diffusion d'images, un pixel mal prédit ne rend pas une image inutilisable, mais en langage, une seule erreur sur un jeton peut rendre tout un bloc de texte absurde. Par ailleurs, le modèle gaspille des ressources lorsque la sortie attendue est très courte, car il doit effectuer un grand nombre de traitements parallèles pour aboutir à quelques jetons seulement. Google a déjà expérimenté la diffusion pour ses modèles Gemini, mais sans l'adopter à grande échelle en raison de ces inconvénients et d'un taux d'erreur plus élevé.

Des voies complémentaires pour l'inférence locale

Dans les centres de données, les modèles autorégressifs peuvent regrouper les demandes de nombreux utilisateurs pour maintenir un flux constant de calcul, et la bande passante mémoire élevée des accélérateurs HBM permet de déplacer les données efficacement. En revanche, sur un ordinateur personnel, les cycles de calcul inactifs sont fréquents en raison d'une bande passante mémoire plus faible. Google souligne que les modèles de diffusion tirent mieux parti de ces ressources disponibles, mais que d'autres techniques existent, comme la prédiction multi-jetons (MTP) déjà déployée sur certains modèles Gemma. Selon Google, la diffusion s'avère encore plus rapide que ces dernières. Le modèle est présenté comme expérimental, mais son ouverture sous licence permissive permet à la communauté de chercheurs et de développeurs de l'évaluer et de l'exploiter librement.