AVTR-1 : un modèle open-weight pour animer des avatars par la voix en temps réel

Le dépôt GitHub « avaturn-live/avtr-1 » vient de rendre public AVTR-1, un transformateur à appariement de flux en temps réel conçu pour animer des avatars à partir de la parole. Le modèle, présenté comme « open-weight » (poids ouverts), permet à la communauté de chercheurs et de développeurs de l’utiliser, l’étudier et l’adapter.

Un modèle spécialisé pour l’animation vocale

AVTR-1 repose sur une architecture de transformateur à appariement de flux. Cette technique, issue des modèles génératifs continus, permet de produire des séquences d’animation en temps réel synchronisées sur un flux audio. L’objectif affiché est de doter les avatars d’une capacité d’écoute et de réponse vocale naturelle, comme l’indique l’intitulé : « avatars that listen back » (des avatars qui écoutent en retour).

Le modèle est publié sous forme de poids ouverts, ce qui signifie que les paramètres entraînés sont librement accessibles, sans nécessairement que l’intégralité du code d’entraînement ou des données soit ouverte. Ce choix facilite le déploiement et l’expérimentation par des tiers.

Détails techniques et disponibilité

Selon la description du projet, AVTR-1 est un « flow-matching transformer » opérant en temps réel. Le dépôt contient le code source, les poids du modèle et des instructions pour la mise en œuvre. Le compte « avaturn-live » sur GitHub héberge le projet, qui compte déjà plusieurs étoiles et forks, indiquant un intérêt précoce de la part de la communauté.

Le mécanisme de « flow matching » est une méthode de génération qui apprend à transformer une distribution de bruit en une distribution de données (ici, des séquences d’animation) via un chemin continu, permettant une inférence rapide et stable. Appliqué à l’animation d’avatars, il vise à produire des mouvements faciales et corporels cohérents avec le signal audio d’entrée.

Implications et perspectives

La mise à disposition d’un tel modèle en accès libre pourrait accélérer les développements dans le domaine des avatars conversationnels, des personnages virtuels pour jeux vidéo, des assistants animés et des applications de réalité augmentée ou virtuelle. La capacité à traiter l’audio en temps réel ouvre la voie à des interactions plus fluides entre humains et agents virtuels.

Le projet étant récent, peu d’informations sont disponibles sur les performances exactes, les conditions d’entraînement ou la licence précise. Les développeurs intéressés peuvent consulter le dépôt GitHub pour obtenir les fichiers nécessaires et commencer à expérimenter.

Contexte plus large

Cette publication s’inscrit dans une tendance plus large de démocratisation des modèles d’IA générative pour la création de contenu animé. D’autres travaux récents ont exploré l’utilisation de transformateurs et de modèles de diffusion pour la génération de parole à partir de texte ou d’audio, mais AVTR-1 se distingue par son focus sur l’animation d’avatars en temps réel et son format open-weight.

La communauté open source de l’IA devrait suivre de près l’évolution de ce projet, qui pourrait servir de base à des applications commerciales ou de recherche dans le domaine de l’interaction homme-machine.

Un nouveau modèle de transformateur à flux pour avatars animés par la parole rendu public

À lire ensuite

Des pages de panne factices hébergées via les liens de partage de ChatGPT servent à diffuser des logiciels mal...

Quantinuum, soutenu par Honeywell, vise 1,05 milliard de dollars avec son introduction en Bourse

Réseau d'agents chinois aux États-Unis : une enquête inédite dévoile l'ampleur de l'infiltration

La fusée New Glenn de Blue Origin détruite lors d'un essai : un revers majeur pour Amazon et la Nasa