GLM-5.2 exécuté sur un Mac 64 Go : à peine 2 tokens par seconde, un goulot d'étranglement inattendu
Un développeur a réussi à faire fonctionner le modèle MoE de 244 Go sur une machine grand public, révélant une dispersion des données qui déplace le goulot d'étranglement du calcul vers les entrées-sorties.
Évolution chronologique
-
Z.ai dévoile GLM-5.2 avec un contexte d'un million de tokens et promet une ouverture sous licence MIT
Z.ai lance GLM-5.2, un modèle de codage avec un contexte d'un million de tokens. Accessible dès maintenant aux abonnés, il sera open source sous licence MIT la semaine prochaine.
-
GLM-5.2 de Z.ai s'impose comme le meilleur modèle ouvert dans plusieurs classements de codage et d'agents
GLM-5.2 de Z.ai atteint la deuxième place en Code Arena : Frontend et la dixième en Agent Arena, s'affirmant comme le meilleur modèle ouvert devant Kimi-K2.6 et Minimax-M3.
-
GLM-5.2 de Z.ai : des performances record en inférence obtenues via une ingénierie de contournement
Un développeur indépendant est parvenu à faire fonctionner le modèle GLM-5.2 sur le runtime TileRT, atteignant des vitesses de traitement inédites malgré l'absence de compatibilité...
-
GLM-5.2 de Z.ai fonctionne localement sur un Mac Studio avec des performances inédites
Un utilisateur a réussi à faire fonctionner le modèle GLM-5.2 de Z.ai localement sur un Mac Studio, avec des résultats supérieurs à Opus 4.8, marquant un tournant vers l'IA privée...
-
Benchmark indépendant : GLM-5.2 devance MiniMax M3 en précision de codage, MiniMax M3 l'emporte en coût et en rapidité
GLM-5.2 atteint 92 % de réussite complète contre 84 % pour MiniMax M3 dans un benchmark de 60 tâches de codage. L'écart se concentre sur les projets greenfield. MiniMax M3 reste mo...
-
GLM-5.2 relégué en queue de peloton dans un test indépendant sur du code réel
Un test sur 50 pull requests réelles place GLM-5.2 loin derrière ses concurrents en qualité de code et en rapport coût-efficacité, contredisant les classements précédents.
-
GLM-5.2 exécuté sur un Mac 64 Go : à peine 2 tokens par seconde, un goulot d'étranglement inattendu
Un test indépendant montre que GLM-5.2, modèle de Z.ai, tourne à 2 tokens/s sur un Mac 64 Go, avec un goulot d'étranglement lié à la dispersion des données plutôt qu'au calcul.