Un projet open source publié sur GitHub permet d'exécuter le très imposant modèle de langage GLM-5.1 sur un ordinateur équipé de seulement 16 Go de RAM. Le développeur, connu sous le pseudonyme snrj35-dev, a mis en ligne un dépôt intitulé « 754B-on-a-Potato » (754 milliards de paramètres sur une patate), une référence explicite au caractère modeste de la configuration matérielle requise.
Une prouesse technique de compression
Le modèle GLM-5.1, développé par une équipe chinoise, compte officiellement 754 milliards de paramètres. De tels modèles nécessitent habituellement des serveurs dotés de plusieurs centaines de gigaoctets de mémoire vive, voire de plusieurs téraoctets, pour fonctionner. La capacité à le faire tourner sur une machine de bureau standard, avec une RAM équivalente à celle de nombreux ordinateurs personnels, constitue donc une avancée technique notable.
Le dépôt GitHub du projet explique les techniques employées pour réduire l'empreinte mémoire du modèle. L'auteur indique avoir utilisé des méthodes de quantification et de partitionnement permettant de charger le modèle par blocs successifs, évitant ainsi de devoir stocker l'intégralité des 754 milliards de paramètres en mémoire simultanément. Cette approche s'inscrit dans une tendance plus large de la communauté open source visant à démocratiser l'accès aux grands modèles de langage, souvent réservés à des infrastructures coûteuses.
Réactions et implications
La nouvelle a été partagée sur la plateforme Hacker News, où elle a suscité l'intérêt des passionnés d'intelligence artificielle. Le commentaire le plus récent souligne le caractère « impressionnant » de la performance, tout en notant que la vitesse d'inférence est probablement très réduite sur une telle configuration. Aucun détail sur la rapidité d'exécution ou la qualité des réponses générées n'a été fourni dans les sources.
Cette démonstration relance le débat sur l'accessibilité des modèles d'IA de pointe. Si les géants de la technologie déploient ces modèles via le cloud, des initiatives comme « 754B-on-a-Potato » ouvrent la voie à une utilisation locale, hors ligne, avec des implications potentielles pour la vie privée et la souveraineté numérique. Il s'agit également d'un signal fort pour la communauté des développeurs qui cherchent à repousser les limites du matériel grand public.
Limites et perspectives
Il convient de nuancer l'exploit : faire fonctionner un modèle de 754 milliards de paramètres sur 16 Go de RAM implique très probablement des temps de réponse très longs et une capacité limitée à traiter des requêtes complexes. Le projet semble pour l'instant une preuve de concept plutôt qu'un outil prêt pour une utilisation quotidienne. L'auteur lui-même reconnaît, dans la description du projet, que l'inférence est « lente ».
Néanmoins, ce travail démontre que les barrières matérielles à l'utilisation des grands modèles de langage peuvent être contournées par des optimisations logicielles astucieuses. À l'avenir, de telles techniques pourraient permettre à des chercheurs, étudiants ou petites entreprises d'expérimenter avec des modèles de taille gigantesque sans investir dans des serveurs coûteux.