Aller au contenu principal

Vue d'ensemble

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync est un plugin qui permet une synchronisation labiale en temps réel, hors ligne et multiplateforme pour les personnages MetaHuman et personnalisés. Il vous permet d'animer les lèvres d'un personnage en réponse à une entrée audio provenant de diverses sources, notamment :

Le plugin génère en interne des visèmes (représentations visuelles des phonèmes) à partir de l'entrée audio. Puisqu'il travaille directement avec les données audio plutôt que le texte, le plugin prend en charge une entrée multilingue incluant, sans s'y limiter, l'anglais, l'espagnol, le français, l'allemand, le japonais, le chinois, le coréen, le russe, l'italien, le portugais, l'arabe et l'hindi. Littéralement, toutes les langues sont prises en charge car la synchronisation labiale est générée à partir des phonèmes audio plutôt que d'un traitement de texte spécifique à une langue.

Le Standard Model produit 14 visèmes et effectue l'animation de synchronisation labiale à l'aide d'un actif de pose prédéfini. En revanche, les Realistic Models (exclusifs aux personnages MetaHuman et basés sur ARKit) génèrent 81 changements de contrôle facial sans dépendre d'un actif de pose prédéfini, ce qui donne des animations faciales considérablement plus réalistes.

Compatibilité des personnages

Malgré son nom, Runtime MetaHuman Lip Sync fonctionne avec un large éventail de personnages au-delà des seuls MetaHumans :

Systèmes de personnages commerciaux populaires

  • personnages Daz Genesis 8/9
  • personnages Reallusion Character Creator 3/4 (CC3/CC4)
  • personnages Mixamo
  • avatars ReadyPlayerMe

Prise en charge des standards d'animation

  • Systèmes de blendshapes basés sur FACS
  • Standard de blendshapes Apple ARKit
  • Jeux de phonèmes Preston Blair
  • Systèmes de phonèmes 3ds Max
  • Tout personnage avec des cibles de morphing personnalisées pour les expressions faciales

Pour des instructions détaillées sur l'utilisation du plugin avec des personnages non-MetaHuman, consultez le Guide de configuration des personnages personnalisés.

Aperçu de l'animation

Découvrez ces courtes animations pour voir la qualité de l'animation de synchronisation labiale produite par le plugin sur différents types de personnages et modèles :

Modèle réaliste avec personnage MetaHuman
Modèle standard avec personnage MetaHuman
Modèle standard avec personnage personnalisé
Standard model avec personnage personnalisé

Fonctionnalités clés

  • Synchronisation labiale en temps réel à partir de l'entrée microphone
  • Support du traitement audio hors ligne
  • Compatibilité multiplateforme avec support de plateforme spécifique au modèle
  • Support pour plusieurs systèmes de personnages et standards d'animation
  • Mappage de visèmes flexible pour les personnages personnalisés
  • Support universel des langues - fonctionne avec n'importe quelle langue parlée grâce à l'analyse audio
  • Animation faciale sensible à l'humeur pour une expressivité améliorée
  • Types de sortie configurables (contrôles du visage complet ou de la bouche uniquement)

Modèles de synchronisation labiale

Le plugin propose plusieurs modèles de synchronisation labiale pour répondre aux différents besoins de projet :

Le modèle de synchronisation labiale standard offre des performances efficaces et multiplateformes avec une large compatibilité de personnages :

  • Fonctionne avec les MetaHumans et tous les types de personnages personnalisés
  • Optimisé pour les performances en temps réel
  • Exigences de ressources moindres
  • Support de plateforme : Windows, Android, plateformes basées sur Android (y compris Meta Quest)
Plugin d'extension requis

Pour utiliser le Standard Model, vous devez installer un plugin d'extension supplémentaire. Consultez la section Prérequis pour les instructions d'installation.

Vous pouvez choisir le modèle approprié en fonction des exigences de votre projet en termes de performances, de compatibilité de personnage, de qualité visuelle, de plateforme cible et de besoins en fonctionnalités.

Fonctionnement

  1. Les données audio sont reçues au format PCM en flottant avec des canaux et une fréquence d'échantillonnage spécifiés
  2. Le plugin traite l'audio pour générer des données de contrôle facial ou des visèmes selon le modèle
  3. Pour les modèles avec humeur, le contexte émotionnel est appliqué à l'animation faciale
  4. Les données d'animation pilotent les mouvements faciaux du personnage en temps réel

Architecture de performance

Runtime MetaHuman Lip Sync utilise l'inférence CPU uniquement pour fournir des résultats de synchronisation labiale cohérents et à faible latence, adaptés aux applications en temps réel. Par défaut, le plugin effectue le traitement de la synchronisation labiale toutes les 10 millisecondes (réglable - voir Configuration du plugin pour tous les paramètres disponibles, y compris la Taille de bloc de traitement, le nombre de threads et d'autres paramètres de performance).

Aperçu de l'architecture du modèle

Les modèles de synchronisation labiale utilisent un réseau neuronal compact basé sur transformer qui traite l'audio par analyse de mel-spectrogramme. Cette architecture légère est spécialement conçue pour des performances en temps réel avec une inférence CPU efficace et une empreinte mémoire minimale.

Pourquoi l'inférence CPU ?

Pour les petites opérations d'inférence fréquentes comme la synchronisation labiale en temps réel, le traitement CPU offre de meilleures caractéristiques de latence que le GPU. Avec une taille de lot de 1 et des intervalles d'inférence de 10 à 100 ms, la surcharge GPU due aux transferts PCIe et aux lancements de noyau dépasse souvent le temps de calcul réel. De plus, dans les moteurs de jeu, le GPU est déjà saturé par le rendu, les shaders et la physique, créant une contention des ressources qui introduit des pics de latence imprévisibles.

Compatibilité matérielle

Le plugin fonctionne efficacement sur la plupart des CPU de milieu de gamme et supérieurs sans nécessiter de matériel graphique dédié, offrant des performances en temps réel sur les plateformes de bureau, mobiles et VR. Pour le matériel plus faible, vous pouvez ajuster le Type de modèle sur Semi-Optimized ou Highly Optimized, ou augmenter la Taille de bloc de traitement pour maintenir les performances en temps réel avec une réactivité légèrement réduite.

Démarrage rapide

Voici une configuration de base pour activer la synchronisation labiale sur votre personnage :

  1. Pour les personnages MetaHuman, suivez le Guide de configuration
  2. Pour les personnages personnalisés, suivez le Guide de configuration de personnage personnalisé
  3. Choisissez et configurez votre modèle de synchronisation labiale préféré
  4. Configurez le traitement d'entrée audio dans votre Blueprint
  5. Connectez le nœud de synchronisation labiale approprié dans le Blueprint d'animation
  6. Jouez de l'audio et voyez votre personnage parler avec émotion !

Ressources supplémentaires

📦 Téléchargements et liens

Projets de démonstration :

Deux projets de démonstration prêts à l'emploi sont disponibles - consultez la page dédiée Projets de démonstration pour tous les détails, téléchargements et procédures pas à pas :

Les deux démos sont multiplateformes (Windows, Mac, Linux, iOS, Android, Meta Quest) et sont livrées sous forme de builds empaquetés et de projets source UE 5.6+ complets.

🎥 Tutoriels vidéo

Démos en vedette :

Tutoriels du modèle réaliste (haute qualité) :

Tutoriels du modèle standard :

Configuration générale :

💬 Support

  • Développement personnalisé : solutions@georgy.dev (solutions sur mesure pour les équipes et organisations)
Join our Discord
online · support