Le géant chinois du commerce électronique et du cloud franchit une étape significative dans le domaine de l’intelligence artificielle physique. Tongyi Lab, la branche recherche d’Alibaba, a officialisé le 16 juin 2026 le lancement de la Qwen-Robot Suite, une collection de modèles d’IA spécialement conçus pour doter les robots de capacités de navigation, de manipulation et d’anticipation des conséquences de leurs actions. Cette initiative marque un virage stratégique pour l’entreprise, qui s’éloigne du seul champ des chatbots pour investir celui des agents autonomes évoluant dans l’environnement matériel.
Trois briques pour trois fonctions fondamentales
La Qwen-Robot Suite se décompose en trois composants distincts, chacun répondant à un besoin spécifique de la robotique autonome. Le premier modèle, baptisé Qwen-RobotNav, est dédié à l’analyse spatiale et au calcul des déplacements. Il permet à un robot de comprendre la configuration d’un espace et de planifier une trajectoire pour s’y mouvoir sans collision. Le second, Qwen-RobotManip, se concentre sur la préhension et la manipulation d’objets. Selon les informations communiquées par le laboratoire, ce modèle surpasserait de sept points le système π0.5 développé par la société américaine Physical Intelligence sur les benchmarks de manipulation, et se classerait en tête du classement RoboChallenge. Son entraînement aurait mobilisé plus de 38 000 heures de données, mises à disposition en open source. Le troisième modèle, Qwen-RobotWorld, agit comme un modèle de prédiction du monde physique : il est conçu pour anticiper les conséquences d’une action avant même que le robot ne l’exécute, offrant ainsi une forme de simulation cognitive.
Cette architecture en trois couches vise à résoudre un problème fondamental de la robotique : la capacité non seulement à comprendre l’environnement, mais à y agir de manière fiable. Jusqu’à présent, les modèles de langage de grande taille excellent dans la description du monde, mais échouent souvent à interagir physiquement avec lui. La Qwen-Robot Suite entend combler ce fossé en transformant des commandes exprimées en langage naturel en actions physiques concrètes. Les modèles de la famille Qwen peuvent ainsi appeler ces briques comme des outils, permettant à un utilisateur de donner une instruction vocale qui sera traduite en mouvement ou en préhension.
Un écosystème ouvert et des applications limitées
Alibaba a fait le choix stratégique de diffuser ces modèles en open source, une approche qui n’est pas nouvelle pour l’entreprise mais qui prend ici une dimension particulière. Le laboratoire DAMO Academy avait déjà dévoilé en février 2026 le modèle RynnBrain, qui constitue la base de cette nouvelle suite. Disponible sur les plateformes GitHub et Hugging Face, RynnBrain repose sur l’architecture Qwen3-VL, un modèle mixture-of-experts de 30 milliards de paramètres dont seulement 3 milliards sont activés lors de l’inférence, ce qui réduit les besoins en ressources informatiques. Alibaba revendique des records sur seize benchmarks de robotique, avec des performances annoncées comme supérieures à celles de Google et de Nvidia sur ces tests, même si les conditions d’évaluation n’ont pas été soumises à une validation indépendante.
Parallèlement, Alibaba a annoncé Qwen3.7-Max, son dernier modèle de langage propriétaire, présenté comme une fondation pour les agents IA autonomes. Ce modèle serait capable de fonctionner jusqu’à 35 heures en autonomie sans dégradation des performances, un chiffre qui n’a pas encore été vérifié de manière externe.
L’application concrète de ces technologies reste toutefois cantonnée à un périmètre restreint. Un service baptisé Chat2Robot a été mis en place, permettant de transformer des commandes vocales en actions physiques, mais il est limité à une cinquantaine de tâches et n’est déployé qu’en phase pilote auprès d’une sélection de clients de la plateforme cloud Alibaba Cloud. Une démonstration diffusée par DAMO Academy montre un robot capable d’identifier un fruit et de le placer dans un panier, illustrant la difficulté technique que représente la perception spatiale, la localisation d’objets dans un environnement non contrôlé et l’exécution motrice.
Une course mondiale aux agents physiques
Cette annonce s’inscrit dans un mouvement plus large de l’industrie technologique, tant chinoise qu’américaine, qui voit dans les agents autonomes la prochaine frontière de l’intelligence artificielle. Après une décennie dominée par la compétition sur les chatbots, les entreprises se tournent désormais vers des systèmes capables d’agir dans le monde physique : réserver, acheter, orchestrer des opérations sans intervention humaine constante. La robotique en est l’expression la plus aboutie.
Alibaba n’est pas seul sur ce terrain. Le même jour, Amazon a dévoilé trois nouveaux robots destinés à ses entrepôts, sans toutefois viser le remplacement de ses employés. La confrontation entre les approches américaine et chinoise se dessine, avec des stratégies différentes : là où certains privilégient des solutions propriétaires et intégrées, Alibaba mise sur l’open source pour accélérer l’adoption et l’innovation. Cette stratégie, loin d’être altruiste, est présentée par les observateurs comme un moyen de bâtir un écosystème autour de ses technologies et de verrouiller à long terme des positions dominantes.
Reste que la Qwen-Robot Suite n’en est qu’à ses débuts. Les tests en conditions réelles sont pour l’instant limités, et les performances annoncées dans les benchmarks devront être confirmées par des déploiements à grande échelle. L’enjeu, pour Alibaba, est de démontrer que ses modèles peuvent passer du laboratoire à l’usine, de l’entrepôt au domicile, sans perdre en fiabilité. La route est encore longue, mais la direction est tracée.