Aller au contenu
mardi 23 juin 2026
Suivi du sujet

GLM-5.2 exécuté sur un Mac 64 Go : à peine 2 tokens par seconde, un goulot d'étranglement inattendu

Un développeur a réussi à faire fonctionner le modèle MoE de 244 Go sur une machine grand public, révélant une dispersion des données qui déplace le goulot d'étranglement du calcul vers les entrées-sorties.

7 articles

Ce sujet évolue — revenez pour les suites.

Alex Finn Andrea Borio Apple Silicon Arena.ai Brandon Huey Claude Code Claude Opus 4.7 Claude Opus 4.8 Cline Codex Composer 2.5 CUDA Digg ds4 Fable Fable 5 GLM-5.2 Go GPT-5.5 graphql-go-tools Hermes Agent IndexShare Jie Tang Kimi K2.6 MacBook Pro Mac Studio Minimax-M3 NVIDIA B200 OpenRouter Opus 4.8 Rust sqlparser-rs Stet Thinkbench TileRT vLLM Xiaomi MiMo Z.AI

Évolution chronologique

  1. 13 juin 2026, 21h24

    Z.ai dévoile GLM-5.2 avec un contexte d'un million de tokens et promet une ouverture sous licence MIT

    Z.ai lance GLM-5.2, un modèle de codage avec un contexte d'un million de tokens. Accessible dès maintenant aux abonnés, il sera open source sous licence MIT la semaine prochaine.

  2. 17 juin 2026, 08h25

    GLM-5.2 de Z.ai s'impose comme le meilleur modèle ouvert dans plusieurs classements de codage et d'agents

    GLM-5.2 de Z.ai atteint la deuxième place en Code Arena : Frontend et la dixième en Agent Arena, s'affirmant comme le meilleur modèle ouvert devant Kimi-K2.6 et Minimax-M3.

  3. 18 juin 2026, 23h17

    GLM-5.2 de Z.ai : des performances record en inférence obtenues via une ingénierie de contournement

    Un développeur indépendant est parvenu à faire fonctionner le modèle GLM-5.2 sur le runtime TileRT, atteignant des vitesses de traitement inédites malgré l'absence de compatibilité...

  4. 19 juin 2026, 14h28

    GLM-5.2 de Z.ai fonctionne localement sur un Mac Studio avec des performances inédites

    Un utilisateur a réussi à faire fonctionner le modèle GLM-5.2 de Z.ai localement sur un Mac Studio, avec des résultats supérieurs à Opus 4.8, marquant un tournant vers l'IA privée...

  5. 19 juin 2026, 17h01

    Benchmark indépendant : GLM-5.2 devance MiniMax M3 en précision de codage, MiniMax M3 l'emporte en coût et en rapidité

    GLM-5.2 atteint 92 % de réussite complète contre 84 % pour MiniMax M3 dans un benchmark de 60 tâches de codage. L'écart se concentre sur les projets greenfield. MiniMax M3 reste mo...

  6. 20 juin 2026, 14h16

    GLM-5.2 relégué en queue de peloton dans un test indépendant sur du code réel

    Un test sur 50 pull requests réelles place GLM-5.2 loin derrière ses concurrents en qualité de code et en rapport coût-efficacité, contredisant les classements précédents.

  7. 23 juin 2026, 14h41

    GLM-5.2 exécuté sur un Mac 64 Go : à peine 2 tokens par seconde, un goulot d'étranglement inattendu

    Un test indépendant montre que GLM-5.2, modèle de Z.ai, tourne à 2 tokens/s sur un Mac 64 Go, avec un goulot d'étranglement lié à la dispersion des données plutôt qu'au calcul.