Un projet open source publié sur GitHub propose une version miniature d'un GPT (Generative Pre-trained Transformer) écrite entièrement en langage Go. Le développeur, connu sous le pseudonyme zakirullin, a conçu ce modèle avec un objectif clair : offrir une compréhension approfondie du fonctionnement interne des grands modèles de langage, sans la complexité des frameworks industriels.

Un modèle pédagogique et autonome

Contrairement aux modèles massifs comme GPT-4 ou Llama, qui nécessitent des ressources informatiques colossales, ce « Tiny GPT » est volontairement réduit. Il a été entraîné sur l'intégralité des livres de Jules Verne, un corpus littéraire cohérent et de taille modeste. Le code ne repose sur aucune bibliothèque externe de deep learning : le développeur a tout implémenté « from scratch » (à partir de zéro) en Go, un langage réputé pour sa simplicité et ses performances.

L'objectif, selon la documentation du projet, est de « déconstruire » le fonctionnement d'un transformer. Chaque composant clé — l'attention multi-têtes, les couches de feed-forward, l'embedding positionnel — est écrit et commenté ligne par ligne. Le projet inclut également un mécanisme de génération de texte, capable de produire des phrases dans le style de Jules Verne après entraînement.

Une explication pas à pas

Au-delà du simple code, le dépôt contient un guide explicatif qui détaille les mathématiques sous-jacentes : les produits scalaires de l'attention, la normalisation par couche, la fonction d'activation ReLU, ou encore l'algorithme de rétropropagation du gradient. L'accent est mis sur la clarté plutôt que sur l'optimisation brute. « Optimisé pour la compréhension », précise le développeur dans la description.

Cette approche contraste avec la tendance actuelle à publier des modèles toujours plus gros, dont l'architecture interne est souvent opaque. Le projet s'adresse aux étudiants, aux développeurs curieux ou à toute personne souhaitant comprendre comment un modèle comme ChatGPT génère du texte, sans avoir à manipuler des centaines de milliards de paramètres.

Un contexte de vulgarisation de l'IA

La publication de ce code intervient dans un contexte où la demande de transparence et de compréhension des systèmes d'IA ne cesse de croître. De nombreuses initiatives pédagogiques voient le jour pour former le public aux bases de l'apprentissage automatique. Le choix de Jules Verne comme corpus d'entraînement n'est pas anodin : les romans de l'auteur français offrent un vocabulaire riche et des structures narratives variées, tout en restant suffisamment volumineux pour permettre un apprentissage significatif avec un petit modèle.

Le dépôt a déjà suscité un certain intérêt, recueillant plusieurs centaines d'étoiles sur GitHub et des retours positifs de la communauté des développeurs. Le code est librement consultable et modifiable, sous licence MIT, encourageant les contributions et les expérimentations.