Un potentiel méconnu pour l'IA locale
Le Mac Pro 6,1, malgré son ancienneté, peut être mis à contribution pour l'inférence de modèles de langage (LLM) en local, à condition d'utiliser les bons outils. La version équipée de deux GPU FirePro D700 (6 Go de GDDR5 chacun) offre une mémoire VRAM agrégée de 12 Go, mais cette capacité n'est pas utilisable comme un seul bloc homogène. Un guide technique récent détaille la configuration nécessaire pour faire fonctionner llama.cpp avec le backend Vulkan sur ce matériel, en exploitant les deux cartes via le pilote amdgpu et le driver Vulkan RADV de Mesa.
Caractéristiques matérielles et contraintes
Les FirePro D700 sont basées sur l'architecture GCN 1.0 (Tahiti). Chaque carte dispose de 2048 processeurs de flux, un bus mémoire 384 bits et une bande passante de 264 Go/s. La configuration dual-GPU permet d'envisager des modèles de 7 milliards de paramètres en quantification Q4 ou Q5, avec une taille de contexte raisonnable. En revanche, les modèles de 13 milliards de paramètres sont généralement trop volumineux pour un déchargement complet sur GPU, à cause du plafond de 6 Go par carte et des surcoûts mémoire liés aux tampons de calcul et au cache KV.
Le guide insiste sur le fait qu'il ne faut pas interpréter les 12 Go de VRAM agrégée comme une capacité unique de 12 Go. llama.cpp peut répartir les couches entre les deux GPU (mode split en couches), mais chaque carte conserve sa limite de 6 Go. Pour un modèle 7B en Q4_K_M (environ 4,0 à 4,5 Go), la place est suffisante. Un modèle 8B en Q4_K_M (4,5 à 5,0 Go) reste généralement utilisable avec un contexte prudent. En revanche, un modèle 13B en Q4_K_M (7,5 à 8,5 Go) dépasse les capacités d'une seule carte et le split entre GPU et CPU devient peu performant à cause de la bande passante PCIe réduite et des coûts de synchronisation.
Pile logicielle recommandée
Le guide recommande une pile spécifique : au sommet, llama.cpp avec son backend Vulkan GGML ; en dessous, le driver Vulkan RADV de Mesa, qui est l'implémentation recommandée pour les GPU AMD GCN et RDNA ; à la base, le pilote noyau Linux amdgpu. Il est essentiel que les deux cartes utilisent amdgpu et non l'ancien pilote radeon. Sous Ubuntu 24.04, le bon pilote est souvent utilisé par défaut, mais une vérification est conseillée via la commande lspci -nnk. Si l'une des cartes est sous radeon, il faut ajouter les options radeon.si_support=0 amdgpu.si_support=1 aux paramètres de démarrage GRUB, puis mettre à jour GRUB et redémarrer.
Installation de Vulkan et de llama.cpp
Une fois les pilotes vérifiés, l'installation des paquets Vulkan est nécessaire : build-essential, cmake, libvulkan-dev, mesa-vulkan-drivers, vulkan-tools, entre autres. La commande vulkaninfo --summary doit montrer deux périphériques RADV (par exemple étiquetés « RADV TAHITI » ou « AMD FirePro D700 »). Si un seul GPU est détecté, le problème doit être résolu avant de compiler llama.cpp.
Le guide propose deux méthodes pour obtenir llama.cpp avec support Vulkan : soit télécharger la version précompilée pour Ubuntu x64 avec Vulkan depuis la page des versions du projet GitHub, soit compiler depuis les sources. La méthode précompilée est déconseillée pour les utilisateurs qui ont besoin d'un commit spécifique ou qui souhaitent vérifier les options de compilation. Le guide fournit des commandes pour automatiser le téléchargement de la dernière version précompilée via l'API GitHub.
Refroidissement et considérations pratiques
Le Mac Pro 6,1 est connu pour sa densité thermique élevée. L'utilisation intensive des deux GPU pour l'inférence de LLM peut générer une chaleur importante, et le guide mentionne que le système de refroidissement doit être en bon état pour éviter une limitation thermique. Il n'est pas précisé si des modifications de refroidissement sont nécessaires, mais l'auteur note que les pièges liés à la chaleur peuvent donner l'impression que ces anciens GPU GCN sont plus lents qu'ils ne le sont réellement.
Conclusion
Avec une configuration logicielle adaptée (Ubuntu, amdgpu, RADV, llama.cpp Vulkan), le Mac Pro 6,1 doté de deux FirePro D700 peut devenir une machine raisonnable pour exécuter des LLM de taille modeste (jusqu'à 8B en quantification Q4) en déchargement complet sur GPU. Le guide fournit des repères concrets pour choisir les modèles et ajuster les paramètres, évitant ainsi les déceptions liées à une surestimation de la mémoire VRAM agrégée.