Vue d'ensemble

Runtime MetaHuman Lip Sync est un plugin qui permet une synchronisation labiale en temps réel, hors ligne et multiplateforme pour les personnages MetaHuman et personnalisés. Il vous permet d'animer les lèvres d'un personnage en réponse à une entrée audio provenant de diverses sources, notamment :
- Entrée microphone via Runtime Audio Importer's capturable sound wave
- Parole synthétisée depuis Runtime Text To Speech ou Runtime AI Chatbot Integrator
- Données audio en streaming ou importées dans plusieurs formats via Runtime Audio Importer
- Toute donnée audio au format PCM flottant (un tableau d'échantillons en virgule flottante)
Le plugin génère en interne des visèmes (représentations visuelles des phonèmes) à partir de l'entrée audio. Puisqu'il travaille directement avec les données audio plutôt que le texte, le plugin prend en charge une entrée multilingue incluant, sans s'y limiter, l'anglais, l'espagnol, le français, l'allemand, le japonais, le chinois, le coréen, le russe, l'italien, le portugais, l'arabe et l'hindi. Littéralement, toutes les langues sont prises en charge car la synchronisation labiale est générée à partir des phonèmes audio plutôt que d'un traitement de texte spécifique à une langue.
Le Standard Model produit 14 visèmes et effectue l'animation de synchronisation labiale à l'aide d'un actif de pose prédéfini. En revanche, les Realistic Models (exclusifs aux personnages MetaHuman et basés sur ARKit) génèrent 81 changements de contrôle facial sans dépendre d'un actif de pose prédéfini, ce qui donne des animations faciales considérablement plus réalistes.
Compatibilité des personnages
Malgré son nom, Runtime MetaHuman Lip Sync fonctionne avec un large éventail de personnages au-delà des seuls MetaHumans :
Systèmes de personnages commerciaux populaires
- personnages Daz Genesis 8/9
- personnages Reallusion Character Creator 3/4 (CC3/CC4)
- personnages Mixamo
- avatars ReadyPlayerMe
Prise en charge des standards d'animation
- Systèmes de blendshapes basés sur FACS
- Standard de blendshapes Apple ARKit
- Jeux de phonèmes Preston Blair
- Systèmes de phonèmes 3ds Max
- Tout personnage avec des cibles de morphing personnalisées pour les expressions faciales
Pour des instructions détaillées sur l'utilisation du plugin avec des personnages non-MetaHuman, consultez le Guide de configuration des personnages personnalisés.
Aperçu de l'animation
Découvrez ces courtes animations pour voir la qualité de l'animation de synchronisation labiale produite par le plugin sur différents types de personnages et modèles :
Fonctionnalités clés
- Synchronisation labiale en temps réel à partir de l'entrée microphone
- Support du traitement audio hors ligne
- Compatibilité multiplateforme avec support de plateforme spécifique au modèle
- Support pour plusieurs systèmes de personnages et standards d'animation
- Mappage de visèmes flexible pour les personnages personnalisés
- Support universel des langues - fonctionne avec n'importe quelle langue parlée grâce à l'analyse audio
- Animation faciale sensible à l'humeur pour une expressivité améliorée
- Types de sortie configurables (contrôles du visage complet ou de la bouche uniquement)
Modèles de synchronisation labiale
Le plugin propose plusieurs modèles de synchronisation labiale pour répondre aux différents besoins de projet :
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Le modèle de synchronisation labiale standard offre des performances efficaces et multiplateformes avec une large compatibilité de personnages :
- Fonctionne avec les MetaHumans et tous les types de personnages personnalisés
- Optimisé pour les performances en temps réel
- Exigences de ressources moindres
- Support de plateforme : Windows, Android, plateformes basées sur Android (y compris Meta Quest)
Pour utiliser le Standard Model, vous devez installer un plugin d'extension supplémentaire. Consultez la section Prérequis pour les instructions d'installation.
Le modèle de synchronisation labiale réaliste offre une fidélité visuelle améliorée spécialement pour les personnages MetaHuman :
- Compatible avec les personnages MetaHuman et basés sur ARKit avec une animation faciale avancée (81 contrôles faciaux)
- Qualité visuelle supérieure avec des mouvements de bouche plus naturels
- Exigences de performance légèrement plus élevées
- Traitement audio en streaming pour les applications en temps réel
- Idéal pour les expériences cinématiques et les interactions en gros plan avec les personnages
- Trois niveaux d'optimisation : Original, Semi-Optimized et Highly Optimized
- Ensembles de cibles de morphing configurables (voir Sélection d'ensemble de cibles de morphing)
- Support de plateforme : Windows, Mac, iOS, Linux, Android, plateformes basées sur Android (y compris Meta Quest)
Le Realistic Model est inclus dans le plugin principal et ne nécessite aucune extension supplémentaire pour être utilisé.
Le modèle réaliste avec humeur fournit une animation faciale sensible aux émotions pour les personnages MetaHuman :
- Compatible avec les personnages MetaHuman et basés sur ARKit avec une animation faciale réactive à l’humeur (81 contrôles faciaux)
- 12 types d’humeur différents (Neutral, Happy, Sad, Confident, etc.)
- Intensité d’humeur configurable (0,0 à 1,0)
- Timing d’anticipation ajustable pour une meilleure synchronisation (20 ms à 200 ms)
- Types de sortie sélectionnables : contrôle du visage complet ou bouche uniquement
- Traitement audio en streaming pour les applications en temps réel
- Ensembles de cibles de morphing configurables (voir Sélection d'ensemble de cibles de morphing)
- Support de plateforme : Windows, Mac, iOS, Linux, Android, plateformes basées sur Android (y compris Meta Quest)
Le Mood-Enabled Realistic Model est inclus dans le plugin principal et ne nécessite aucune extension supplémentaire pour être utilisé.
Vous pouvez choisir le modèle approprié en fonction des exigences de votre projet en termes de performances, de compatibilité de personnage, de qualité visuelle, de plateforme cible et de besoins en fonctionnalités.
Fonctionnement
- Les données audio sont reçues au format PCM en flottant avec des canaux et une fréquence d'échantillonnage spécifiés
- Le plugin traite l'audio pour générer des données de contrôle facial ou des visèmes selon le modèle
- Pour les modèles avec humeur, le contexte émotionnel est appliqué à l'animation faciale
- Les données d'animation pilotent les mouvements faciaux du personnage en temps réel
Architecture de performance
Runtime MetaHuman Lip Sync utilise l'inférence CPU uniquement pour fournir des résultats de synchronisation labiale cohérents et à faible latence, adaptés aux applications en temps réel. Par défaut, le plugin effectue le traitement de la synchronisation labiale toutes les 10 millisecondes (réglable - voir Configuration du plugin pour tous les paramètres disponibles, y compris la Taille de bloc de traitement, le nombre de threads et d'autres paramètres de performance).
Aperçu de l'architecture du modèle
Les modèles de synchronisation labiale utilisent un réseau neuronal compact basé sur transformer qui traite l'audio par analyse de mel-spectrogramme. Cette architecture légère est spécialement conçue pour des performances en temps réel avec une inférence CPU efficace et une empreinte mémoire minimale.
Pourquoi l'inférence CPU ?
Pour les petites opérations d'inférence fréquentes comme la synchronisation labiale en temps réel, le traitement CPU offre de meilleures caractéristiques de latence que le GPU. Avec une taille de lot de 1 et des intervalles d'inférence de 10 à 100 ms, la surcharge GPU due aux transferts PCIe et aux lancements de noyau dépasse souvent le temps de calcul réel. De plus, dans les moteurs de jeu, le GPU est déjà saturé par le rendu, les shaders et la physique, créant une contention des ressources qui introduit des pics de latence imprévisibles.
Compatibilité matérielle
Le plugin fonctionne efficacement sur la plupart des CPU de milieu de gamme et supérieurs sans nécessiter de matériel graphique dédié, offrant des performances en temps réel sur les plateformes de bureau, mobiles et VR. Pour le matériel plus faible, vous pouvez ajuster le Type de modèle sur Semi-Optimized ou Highly Optimized, ou augmenter la Taille de bloc de traitement pour maintenir les performances en temps réel avec une réactivité légèrement réduite.
Démarrage rapide
Voici une configuration de base pour activer la synchronisation labiale sur votre personnage :
- Pour les personnages MetaHuman, suivez le Guide de configuration
- Pour les personnages personnalisés, suivez le Guide de configuration de personnage personnalisé
- Choisissez et configurez votre modèle de synchronisation labiale préféré
- Configurez le traitement d'entrée audio dans votre Blueprint
- Connectez le nœud de synchronisation labiale approprié dans le Blueprint d'animation
- Jouez de l'audio et voyez votre personnage parler avec émotion !
Ressources supplémentaires
📦 Téléchargements et liens
Projets de démonstration :
Deux projets de démonstration prêts à l'emploi sont disponibles - consultez la page dédiée Projets de démonstration pour tous les détails, téléchargements et procédures pas à pas :
- Workflow complet de PNJ conversationnel IA - reconnaissance vocale + chatbot LLM + TTS + synchronisation labiale
- Démo de synchronisation labiale basique - entrée microphone, fichiers audio, TTS
Les deux démos sont multiplateformes (Windows, Mac, Linux, iOS, Android, Meta Quest) et sont livrées sous forme de builds empaquetés et de projets source UE 5.6+ complets.
🎥 Tutoriels vidéo
Démos en vedette :
Tutoriels du modèle réaliste (haute qualité) :
- Synchronisation labiale haute qualité à partir de fichier/buffer audio
- Synchronisation labiale haute qualité avec contrôle de l'humeur et TTS local
- Synchronisation labiale haute qualité avec ElevenLabs et OpenAI TTS
- Synchronisation labiale haute qualité en direct depuis microphone
Tutoriels du modèle standard :
- Synchronisation labiale standard en direct depuis microphone
- Synchronisation labiale standard avec synthèse vocale locale
- Synchronisation labiale standard avec ElevenLabs et OpenAI TTS
Configuration générale :
- Ajouter un personnage MetaHuman personnalisé au projet de démonstration
- Vidéo tutoriel de configuration
- Présentation du projet de démonstration (ancienne)
💬 Support
- Développement personnalisé : solutions@georgy.dev (solutions sur mesure pour les équipes et organisations)