Google teste la diffusion pour accélérer le texte

DiffusionGemma explore une génération de texte en parallèle, plus rapide sur GPU dédié mais encore expérimentale.

Google a présenté le 10 juin DiffusionGemma, un modèle ouvert expérimental qui applique une logique de diffusion à la génération de texte. La source officielle indique trois faits vérifiables : le modèle est publié sous licence Apache 2.0, il compte 26 milliards de paramètres en architecture Mixture of Experts, et il peut produire du texte jusqu’à quatre fois plus vite sur GPU dédié que les approches classiques visées par Google. Le point important n’est pas seulement la vitesse affichée. DiffusionGemma s’écarte du fonctionnement autoregressif habituel des grands modèles de langage, où les mots sont prédits les uns après les autres, pour générer des blocs entiers en parallèle puis les corriger par passes successives.

Cette différence technique explique pourquoi Google insiste sur les usages locaux et interactifs. Un modèle autoregressif fonctionne bien dans un grand service cloud, car les requêtes de nombreux utilisateurs peuvent être groupées pour saturer les machines. Sur un poste de travail, avec un seul utilisateur et un GPU dédié, cette logique peut laisser une partie du matériel sous-utilisée. DiffusionGemma cherche à déplacer le goulot d’étranglement : au lieu d’attendre le prochain jeton, le calculateur traite un bloc plus large, par exemple 256 jetons à la fois, et affine ensuite le résultat. La diffusion appliquée au texte ressemble, dans l’idée, aux générateurs d’images qui partent d’un bruit initial avant de stabiliser progressivement une sortie lisible.

Le modèle vise donc moins le remplacement immédiat des modèles de production que l’exploration d’un autre compromis entre qualité, vitesse et matériel local. Google précise que DiffusionGemma active 3,8 milliards de paramètres pendant l’inférence et peut tenir, une fois quantifié, dans une limite de 18 Go de mémoire vidéo sur certains GPU grand public haut de gamme. L’annonce mentionne plus de 1 000 jetons par seconde sur NVIDIA H100 et environ 700 jetons par seconde sur GeForce RTX 5090, tout en rappelant que la qualité globale reste inférieure à Gemma 4 standard pour les sorties où la précision prime.

L’intérêt concret tient à des usages où la latence change l’expérience : édition en ligne, complétion de code, brouillons structurés, formats non linéaires ou expérimentation rapide hors cloud. La licence permissive et la disponibilité des poids sur Hugging Face ouvrent aussi un terrain de test pour les chercheurs et les développeurs qui veulent mesurer ce que la diffusion apporte vraiment au texte. La prudence reste de mise : Google signale que l’avantage est surtout attendu à faible ou moyenne concurrence sur un accélérateur dédié, et que certaines architectures, notamment à mémoire unifiée, peuvent ne pas obtenir le même gain. DiffusionGemma est donc une piste d’architecture, pas un verdict définitif.