Le modèle Grok Imagine Video 1.5 Preview, développé par xAI, s’est hissé au sommet du classement Image-to-Video de la plateforme Arena.ai, selon les données publiées au 29 mai 2026. Avec un score Arena de 1473 ±9, il devance de justesse Dreamina Seedance 2.0 de ByteDance (1467 ±11) et HappyHorse 1.0 d’Alibaba-ATH (1443 ±12).
Ce classement, qui compile plus de 1,15 million de votes et compare 40 modèles, place également l’ancienne version de xAI, Grok Imagine Video 720p, en quatrième position avec 1421 points. Google occupe plusieurs places dans le top 10 avec ses modèles Veo 3.1 Audio et ses déclinaisons, tandis que KlingAI (Kling V3 Pro) et Shengshu (Vidu Q3 Pro) complètent le peloton de tête.
Le modèle vainqueur est une version préliminaire et propriétaire de xAI, qui n’a recueilli que 5 564 votes contre plusieurs dizaines de milliers pour ses concurrents directs. Malgré ce faible échantillon, la marge d’incertitude (±9) reste comparable à celle des autres modèles, ce qui conforte sa position de leader. Le podium serré suggère une compétition intense dans le domaine de la génération d’images animées par intelligence artificielle.
Une avancée significative pour xAI
Grok Imagine Video 1.5 Preview améliore sensiblement les performances de la version 720p précédente, qui occupait la quatrième place. Ce bond illustre les progrès rapides de xAI dans le secteur de la création vidéo assistée par IA, un marché dominé jusqu’alors par des acteurs comme ByteDance, Alibaba et Google.
Le leaderboard Image-to-Video d’Arena.ai repose sur des comparaisons par paires effectuées par les utilisateurs, qui votent pour le résultat qu’ils jugent le meilleur. Ce système de vote permet d’établir un classement relatif de la qualité perçue des modèles, sans évaluation automatique. Le score Arena est calculé à partir de ces préférences, avec un intervalle de confiance associé.
Des modèles ouverts et propriétaires en concurrence
Parmi les 40 modèles listés, on trouve aussi bien des solutions propriétaires (xAI, ByteDance, Google, KlingAI) que des modèles ouverts ou sous licence libre, comme Wan V2.2 A14B d’Alibaba (sous licence Apache 2.0) ou LTX 2.19B de Lightricks. Cette diversité reflète l’écosystème varié de la génération vidéo par IA, où les entreprises chinoises et américaines se disputent la première place.
La présence de nombreux modèles chinois (ByteDance, Alibaba, Tencent, MiniMax, Shengshu) dans le haut du classement témoigne de la vitalité de la recherche en intelligence artificielle dans ce pays. xAI, fondée par Elon Musk, parvient toutefois à tirer son épingle du jeu avec un modèle qui, bien que préliminaire, convainc les utilisateurs de la plateforme.
Implications pour le marché
Ce classement n’est qu’un instantané basé sur les votes des utilisateurs d’Arena.ai. Il ne constitue pas une évaluation exhaustive des capacités de chaque modèle. Néanmoins, il offre un indicateur de la perception du grand public et des passionnés d’IA. Pour xAI, cette première place renforce sa crédibilité dans le domaine de la génération vidéo, après avoir déjà marqué des points dans la génération d’images fixes avec Grok.
La course à la meilleure qualité vidéo générée par IA s’intensifie, chaque acteur publiant des versions majeures à intervalles rapprochés. Les prochaines itérations de ces modèles devraient encore réduire les écarts et améliorer la fidélité des animations, ouvrant la voie à des applications dans le cinéma, la publicité et les médias sociaux.