Le Hao AI Lab de l'Université de Californie à San Diego annonce la publication en open source de Dreamverse, une application de référence pour la génération vidéo en temps réel. Développé par l'équipe FastVideo, Dreamverse repose sur le modèle à poids ouverts LTX-2 et est optimisé pour fonctionner sur un unique GPU NVIDIA B200, offrant aux développeurs la possibilité de construire leurs propres applications de vidéo générative interactive.
Un espace de travail pour le « vibe directing »
Dreamverse se présente comme un espace de travail dédié au « vibe directing », une méthode de pilotage de la génération vidéo par itérations rapides en langage naturel. Le concept, que l'équipe compare au « vibe coding » pour le logiciel, vise à maintenir le créateur dans la boucle de création. L'utilisateur peut ainsi partir d'une idée simple, observer le résultat, puis modifier le cadrage, prolonger la scène ou explorer une autre direction sans quitter l'interface, et ce dans un cycle d'itération court.
Les composants publiés
La publication open source inclut plusieurs éléments : un espace de travail navigateur pour diriger et éditer les scènes générées ; un backend Dreamverse gérant les requêtes, les workers GPU et le streaming ; un pipeline de génération optimisé pour l'architecture NVIDIA Blackwell, exploitant l'inférence NVFP4, FA4 et la compilation torch.compile ; un module de réécriture des prompts pour les éditions, les continuations et le contrôle de scènes longues ; ainsi que des tests, des benchmarks, un backend fictif et des images Docker pour le développement et le déploiement.
Fonctionnement technique
L'espace de travail navigateur envoie les requêtes au runtime Dreamverse, qui fait le lien entre l'interface et la pile de génération. Ce runtime gère la file d'attente des messages, la mémoire de session, le rehaussement et la réécriture des prompts, la sécurité des consignes, ainsi que le cycle de vie des workers GPU. Chaque worker occupe un GPU B200 et sert une session utilisateur à la fois. Si aucun worker n'est libre, l'utilisateur patiente dans une file d'attente.
Le pipeline de prompt peut inclure un filtre de sécurité basé sur les classifieurs fastText pour la détection de contenu NSFW et de discours haineux, lorsqu'il est activé. Le réécrivain de prompts transforme ensuite l'instruction utilisateur en une consigne détaillée pour le segment suivant, en ajoutant des éléments tels que les mouvements de caméra, les actions des acteurs et le contexte de la scène. Pour maintenir la réécriture dans la boucle temps réel, Dreamverse utilise des LLM à faible latence, notamment via le fournisseur GroqCloud et ses LPU de première génération.
Optimisations pour le GPU B200
L'API FastVideo Generator, qui produit chaque segment vidéo et audio, intègre les principales optimisations d'inférence. torch.compile est appliqué sur les grandes étapes du pipeline, y compris l'encodage de texte, le DiT et le VAE, en supprimant autant que possible les points de rupture de graphe pour conserver un chemin compilé. L'attention utilise FA4, conçue spécifiquement pour les GPU Blackwell, et est rendue compatible avec le chemin compilé. Les couches linéaires du transformateur dans le chemin vidéo sont accélérées via NVFP4, le format à virgule flottante 4 bits à échelle par bloc de NVIDIA, ce qui permet de réduire la mémoire et d'augmenter la vitesse.
Déploiement et disponibilité
Dreamverse est conçu pour être hébergé par l'utilisateur lui-même, sur son propre GPU B200 ou sur une instance cloud. L'équipe fournit des instructions détaillées dans le fichier README du dépôt GitHub. L'installation est simplifiée par une commande unique, suivie du lancement du serveur backend, puis de l'application web. Un backend fictif est également proposé pour travailler sur l'interface sans GPU. L'équipe encourage la communauté à s'approprier cette architecture de référence pour construire de nouvelles applications de génération et d'édition vidéo en temps réel.