NVIDIA a présenté Cosmos 3, un modèle de fondation destiné à l'intelligence artificielle physique. Il vise à doter les robots, véhicules autonomes et espaces intelligents d'une compréhension du monde réel, d'une capacité à prédire les évolutions et à générer des actions appropriées. Ce modèle rassemble le raisonnement physique, la génération de mondes et la génération d'actions au sein d'une seule architecture ouverte.

L'architecture repose sur un mélange de transformeurs (Mixture-of-Transformers) comprenant deux tours. La tour de raisonnement, basée sur un modèle vision-langage, interprète des entrées multimodales comme des images, vidéos et textes pour comprendre le contexte physique. La tour de génération, fondée sur un processus de diffusion, produit des observations futures et des séquences d'actions en s'appuyant sur la compréhension de la première tour.

Deux tailles de modèle sont proposées. Cosmos 3 Nano, fort de 16 milliards de paramètres, est optimisé pour une inférence efficace sur des postes de travail équipés de GPU comme le NVIDIA RTX PRO 6000. Cosmos 3 Super, avec 64 milliards de paramètres, offre la meilleure qualité et cible les déploiements dans des datacenters sur des GPU Hopper ou Blackwell.

NVIDIA met ces modèles en open source, avec des poids disponibles sur Hugging Face et le code sur GitHub. Des jeux de données ouverts pour des applications comme la robotique et la conduite autonome sont également fournis, ainsi que des scripts de post-entraînement pour l'adaptation à des domaines spécifiques. Des microservices Cosmos NIM facilitent un déploiement optimisé sur GPU.

Cosmos 3 se distingue par sa capacité à traiter plusieurs modalités en entrée et en sortie : texte, image, vidéo, audio et actions. Il peut générer des images physiquement plausibles à partir de descriptions, produire des vidéos de cas rares pour la simulation, et exécuter des tâches comme le raisonnement visuel en langage ou la planification de trajectoires en robotique.

Cette sortie marque une étape vers une IA physique plus ouverte et reproductible, simplifiant le développement de systèmes capables d'interagir avec le monde réel. En unifiant des capacités auparavant réparties sur plusieurs modèles, Cosmos 3 réduit la complexité d'orchestration et permet aux développeurs de se concentrer sur l'adaptation à leurs cas d'usage spécifiques.

Les premières applications couvrent des domaines variés : simulation de situations dangereuses pour la sécurité d'entrepôts, génération de données d'entraînement pour la conduite autonome, ou encore pilotage de bras robotiques dans des tâches de manipulation. Les chercheurs et ingénieurs peuvent désormais accéder à des briques logicielles complètes pour expérimenter et déployer des systèmes d'IA physique.