Aperçu

Runtime MetaHuman Lip Sync est un plugin qui permet un lip sync en temps réel, hors ligne et multiplateforme pour les personnages MetaHuman et personnalisés. Il vous permet d’animer les lèvres d’un personnage en réponse à une entrée audio provenant de diverses sources, notamment :

Entrée microphone via Runtime Audio Importer's onde sonore capturable
Parole synthétisée depuis Runtime Text To Speech ou Runtime AI Chatbot Integrator
Données audio en flux ou importées dans plusieurs formats via Runtime Audio Importer
Toute donnée audio au format PCM flottant (un tableau d'échantillons en virgule flottante)

Le plugin génère en interne des visèmes (représentations visuelles des phonèmes) à partir de l'entrée audio. Comme il fonctionne directement avec les données audio plutôt qu'avec du texte, le plugin prend en charge les entrées multilingues, y compris mais sans s'y limiter, l'anglais, l'espagnol, le français, l'allemand, le japonais, le chinois, le coréen, le russe, l'italien, le portugais, l'arabe et l'hindi. Littéralement, toute langue est prise en charge car le lip sync est généré à partir des phonèmes audio plutôt que d'un traitement textuel spécifique à une langue.

Le Modèle Standard produit 14 visèmes et effectue une animation de synchronisation labiale à l'aide d'un actif de pose prédéfini. En revanche, les Modèles Réalistes (exclusifs aux personnages basés sur MetaHuman et ARKit) génèrent 81 changements de contrôle facial sans dépendre d'un actif de pose prédéfini, ce qui donne des animations faciales nettement plus réalistes.

Compatibilité des personnages

Malgré son nom, Runtime MetaHuman Lip Sync fonctionne avec une large gamme de personnages au-delà des simples MetaHumans :

Systèmes de personnages commerciaux populaires

Personnages Daz Genesis 8/9
Personnages Reallusion Character Creator 3/4 (CC3/CC4)
Personnages Mixamo
Avatars ReadyPlayerMe

Prise en charge des normes d'animation

Systèmes de blendshapes basés sur FACS
Standard de blendshapes Apple ARKit
Ensembles de phonèmes Preston Blair
Systèmes de phonèmes 3ds Max
Tout personnage avec des morph targets personnalisés pour les expressions faciales

Pour les personnages non-MetaHuman utilisant le Modèle Standard, consultez le Guide de configuration des personnages personnalisés. Pour les personnages basés sur ARKit utilisant les Modèles Réalistes, consultez la Sélection des cibles de morphing.

Aperçu de l’animation

Regardez ces courtes animations pour voir la qualité de la synchronisation labiale produite par le plugin sur différents types de personnages et modèles :

Modèle réaliste avec personnage MetaHuman

Modèle standard avec personnage MetaHuman

Modèle standard avec personnage personnalisé

Fonctionnalités principales

Synchronisation labiale en temps réel à partir de l'entrée microphone
Prise en charge du traitement audio hors ligne
Compatibilité multiplateforme avec prise en charge spécifique au modèle
Prise en charge de plusieurs systèmes de personnages et standards d'animation
Mappage de visèmes flexible pour les personnages personnalisés
Prise en charge linguistique universelle – fonctionne avec n'importe quelle langue parlée grâce à l'analyse audio
Animation faciale sensible à l'humeur pour une expressivité renforcée
Types de sortie configurables (contrôles du visage complet ou de la bouche uniquement)
Aides optionnelles pour l'animation des yeux pour les clignements et le suivi du regard

Modèles de synchronisation labiale

Le plugin propose plusieurs modèles de synchronisation labiale pour répondre aux besoins de différents projets :

Modèle Standard
Modèle réaliste
Modèle réaliste avec gestion des émotions

Le modèle de synchronisation labiale standard offre des performances efficaces et multiplateformes avec une large compatibilité des personnages :

Fonctionne avec les MetaHumans et tous les types de personnages personnalisés
Optimisé pour les performances en temps réel
Exigences de ressources réduites
Prise en charge des plateformes : Windows, Android, plateformes basées sur Android (y compris Meta Quest)

Plugin d'extension requis

Pour utiliser le Modèle Standard, vous devez installer un plugin d'extension supplémentaire. Consultez la section des prérequis pour les instructions d'installation.

Vous pouvez choisir le modèle approprié en fonction des exigences de votre projet en matière de performances, de compatibilité des personnages, de qualité visuelle, de plateforme cible et de besoins fonctionnels.

Comment ça marche

Le plugin traite l'entrée audio de la manière suivante :

Les données audio sont reçues au format PCM en flottant avec des canaux et une fréquence d'échantillonnage spécifiés
Le plugin traite l'audio pour générer des données de contrôle facial ou des visèmes selon le modèle
Pour les modèles compatibles avec l'humeur, le contexte émotionnel est appliqué à l'animation faciale
Les données d'animation pilotent les mouvements faciaux du personnage en temps réel

Architecture de performance

Runtime MetaHuman Lip Sync utilise une inférence uniquement CPU pour fournir des résultats de synchronisation labiale cohérents et à faible latence, adaptés aux applications en temps réel. Par défaut, le plugin effectue le traitement de synchronisation labiale toutes les 10 millisecondes (réglable - voir Configuration du plugin pour tous les paramètres disponibles, y compris la Taille des blocs de traitement, le nombre de threads et d'autres paramètres de performance).

Aperçu de l'architecture du modèle

Les modèles de synchronisation labiale utilisent un réseau neuronal compact basé sur un transformateur qui traite l'audio via une analyse par mél-spectrogramme. Cette architecture légère est spécialement conçue pour des performances en temps réel avec une inférence CPU efficace et une empreinte mémoire minimale.

Pourquoi l'inférence CPU ?

Pour les opérations d'inférence petites et fréquentes comme le lip sync en temps réel, le traitement par CPU offre de meilleures caractéristiques de latence que le GPU. Avec une taille de lot de 1 et des intervalles d'inférence de 10 à 100 ms, la surcharge du GPU due aux transferts PCIe et aux lancements de noyaux dépasse souvent le temps de calcul réel. De plus, dans les moteurs de jeu, le GPU est déjà saturé par le rendu, les shaders et la physique, créant une contention de ressources qui introduit des pics de latence imprévisibles.

Compatibilité matérielle

Le plugin fonctionne efficacement sur la plupart des processeurs de milieu de gamme et supérieurs sans nécessiter de matériel graphique dédié, offrant des performances en temps réel sur les plateformes de bureau, mobiles et VR. Pour les configurations matérielles plus faibles, vous pouvez ajuster le Type de modèle en Semi-optimisé ou Hautement optimisé, ou augmenter la Taille des blocs de traitement pour maintenir des performances en temps réel avec une réactivité légèrement réduite.

Démarrage rapide

Voici une configuration de base pour activer le synchronisme labial sur votre personnage :

Pour les personnages MetaHuman, suivez le Guide de configuration
Pour les personnages personnalisés, suivez le Guide de configuration des personnages personnalisés
Choisissez et configurez votre modèle de synchronisation labiale préféré
Configurez le traitement de l'entrée audio dans votre Blueprint
Connectez le nœud de synchronisation labiale approprié dans l'Animation Blueprint
Jouez l'audio et voyez votre personnage s'animer en synchronisation

Animation oculaire optionnelle

Le plugin inclut également des assistants optionnels pour le clignement automatique et le suivi du regard sur les MetaHumans. Ceux-ci sont indépendants du lip sync et peuvent être utilisés seuls ou superposés à celui-ci. Voir Assistants d'animation des yeux.

Ressources supplémentaires

📦 Téléchargements et Liens

Projets de démonstration :

Deux projets de démonstration prêts à l'emploi sont disponibles - consultez la page dédiée Projets de démonstration pour tous les détails, téléchargements et procédures pas à pas :

Flux de travail complet pour PNJ conversationnel IA - reconnaissance vocale + chatbot LLM + TTS + synchronisation labiale
Démonstration de base de synchronisation labiale - entrée microphone, fichiers audio, TTS

Les deux démos sont multiplateformes (Windows, Mac, Linux, iOS, Android, Meta Quest) et sont livrées sous forme de builds packagés et de projets source complets UE 5.6+.

🎥 Tutoriels Vidéo

Démos en vedette :

Tutoriels pour modèle réaliste (haute qualité) :

Tutoriels pour modèles standards :

Configuration générale :

💬 Assistance

Développement personnalisé : solutions@georgy.dev (solutions sur mesure pour les équipes et les organisations)

Join our Discord

online · support

Compatibilité des personnages​

Systèmes de personnages commerciaux populaires​

Prise en charge des normes d'animation​

Aperçu de l’animation​

Fonctionnalités principales​

Modèles de synchronisation labiale​

Comment ça marche​

Architecture de performance​

Aperçu de l'architecture du modèle​

Pourquoi l'inférence CPU ?​

Compatibilité matérielle​

Démarrage rapide​

Animation oculaire optionnelle​

Ressources supplémentaires​

📦 Téléchargements et Liens​

🎥 Tutoriels Vidéo​

Démos en vedette :​

Tutoriels pour modèle réaliste (haute qualité) :​

Tutoriels pour modèles standards :​

Configuration générale :​

💬 Assistance​