Une révolution silencieuse sous les projecteurs

Alors que les projecteurs de la WWDC 2026 étaient braqués sur les fonctionnalités grand public, notamment un Siri revitalisé, Apple a procédé à une refonte structurelle majeure de son infrastructure d'intelligence artificielle locale. Cette transformation, bien moins spectaculaire en apparence, pourrait avoir des implications profondes pour les développeurs et l'avenir de l'informatique mobile. La conférence annuelle n'a pas introduit de nouvelle puce, mais a dévoilé une pile logicielle entièrement repensée pour faire tourner les modèles de machine learning sur les processeurs Apple.

Core AI remplace Core ML pour les réseaux de neurones

La modification la plus significative est le remplacement progressif de Core ML, le framework historique, par un nouveau venu nommé Core AI. Pendant une décennie, Core ML était la réponse standard à la question "comment faire tourner un modèle sur un iPhone". Désormais, les rôles sont clairement redéfinis. Core AI prend en charge les réseaux de neurones et les transformeurs, tandis que Core ML se recentre sur les méthodes classiques non neuronales, comme les arbres de décision ou les caractéristiques tabulaires.

La documentation officielle d'Apple acte ce basculement. Celle de Core AI renvoie vers Core ML pour les utilisations traditionnelles, tandis que la documentation de Core ML oriente désormais les développeurs vers Core AI pour les architectures modernes et les techniques d'inférence avancées. "Core AI permet à votre application d'utiliser les dernières architectures de modèles et techniques d'inférence sur le CPU, le GPU et le Neural Engine", explique le géant de Cupertino. Les outils de débogage illustrent cette transition : le nouvel outil de mesure de performance ne supporte tout simplement pas l'ancien framework Core ML. Ce dernier n'est pas officiellement abandonné, mais le centre de gravité et les investissements en outillage ont clairement été déplacés.

Un nouveau format de modèle : le dossier .aimodel

Cette refonte s'accompagne d'un nouveau format de fichier pour les modèles, le .aimodel. Particularité notable : il ne s'agit pas d'un fichier unique, mais d'un dossier. Ce répertoire contient un fichier metadata.json lisible, qui renseigne le type de modèle (LLM, VLM, diffusion, segmenteur), le tokenizer, la taille du vocabulaire, la longueur du contexte et la compression utilisée. La partie la plus importante, les poids du réseau de neurones, est quant à elle encapsulée dans un blob binaire dont la structure exacte n'est pas documentée publiquement. Le format est donc semi-ouvert : un manifeste clair autour d'un contenu opaque.

Pour produire ces modèles, Apple dévoile de nouveaux outils Python. Core AI Optimization (coreai-opt) succède à coremltools pour la compression, tandis que Core AI PyTorch Extensions (coreai-torch) permet une exportation directe depuis le framework PyTorch. Les options de compression sont étendues : poids entiers sur 2, 4 et 8 bits, formats flottants comme le FP8 (E4M3) et le FP4 (E2M1), du MXFP8 à échelle par bloc, et de la palettisation de 1 à 8 bits. Certains observateurs notent qu'Apple pousse également la quantification des activations, avec des configurations comme w4a8. Compte tenu de la base installée d'Apple, ces choix pourraient influencer la manière dont les modèles de petite taille sont distribués à l'avenir.

Le GPU, nouveau maître des calculs matriciels

Même sans nouvelle puce, la WWDC a clarifié le rôle de l'architecture M5 et A19. Les "accélérateurs neuronaux" sont désormais intégrés directement dans chaque cœur de shader du GPU, à côté des unités de calcul classiques (ALU) et de raytracing. Apple promet des multiplications matricielles de 4 à 8 fois plus rapides. Le temps avant le premier token (la phase de préremplissage, limitée par le calcul) est annoncé jusqu'à quatre fois plus rapide, tandis que la génération de tokens (la phase de décodage, limitée par la bande passante mémoire) gagne jusqu'à 25 %.

Apple reprend à son compte le modèle théorique de performance, le "roofline model", en distinguant explicitement les opérations limitées par le calcul de celles limitées par la mémoire. Un détail technique supplémentaire se cache dans le code : l'analyse du graphe du modèle détermine l'unité de calcul préférée. Les graphes à forme statique et découpés en morceaux sont dirigés vers le Neural Engine, tandis que les graphes à forme dynamique, typiques des transformeurs, sont orientés vers le GPU, désormais équipé d'accélérateurs neuronaux dédiés dans chaque cœur de shader.

AFM 3 : la troisième génération de modèles fondamentaux

Enfin, Apple a présenté sa troisième génération de modèles fondamentaux, les "Apple Foundation Models" (AFM). Celle-ci comprend un modèle dense de 3 milliards de paramètres, nommé "AFM 3 Core", destiné à fonctionner sur l'appareil. Un modèle plus important de 20 milliards de paramètres a également été évoqué, sans plus de détails précis. Ces modèles sont conçus pour tirer parti de la nouvelle infrastructure Core AI et des capacités accrues du GPU.

En résumé, la WWDC 2026 marque un changement de paradigme pour Apple. Sous le vernis des fonctionnalités grand public, l'entreprise pose les fondations d'une nouvelle ère pour l'IA locale, avec une pile logicielle repensée, des formats ouverts et une vision claire du rôle du matériel. Le succès de cette stratégie dépendra désormais de l'adoption par les développeurs et de la capacité d'Apple à tenir ses promesses de performances.