Zum Hauptinhalt springen

Überblick

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Lippensynchronisation sowohl für MetaHumans als auch für benutzerdefinierte Charaktere ermöglicht. Es erlaubt Ihnen, die Lippen eines Charakters als Reaktion auf Audioeingaben aus verschiedenen Quellen zu animieren, darunter:

Das Plugin erzeugt intern Viseme (visuelle Darstellungen von Phonemen) basierend auf der Audioeingabe. Da es direkt mit Audiodaten und nicht mit Text arbeitet, unterstützt das Plugin mehrsprachige Eingaben, einschließlich, aber nicht beschränkt auf Englisch, Spanisch, Französisch, Deutsch, Japanisch, Chinesisch, Koreanisch, Russisch, Italienisch, Portugiesisch, Arabisch und Hindi. Buchstäblich jede Sprache wird unterstützt, da die Lippensynchronisation aus Audiophonemen und nicht aus sprachspezifischer Textverarbeitung generiert wird.

Das Standard Model erzeugt 14 Viseme und führt die Lippensynchronisations-Animation unter Verwendung eines vordefinierten Pose-Assets durch. Im Gegensatz dazu erzeugen die Realistic Models (exklusiv für MetaHuman und ARKit-basierte Charaktere) 81 Gesichtssteuerungsänderungen, ohne auf ein vordefiniertes Pose-Asset angewiesen zu sein, was zu erheblich realistischeren Gesichtsanimationen führt.

Charakterkompatibilität

Trotz seines Namens funktioniert Runtime MetaHuman Lip Sync mit einer Vielzahl von Charakteren über MetaHumans hinaus:

Beliebte kommerzielle Charaktersysteme

  • Daz Genesis 8/9 Charaktere
  • Reallusion Character Creator 3/4 (CC3/CC4) Charaktere
  • Mixamo Charaktere
  • ReadyPlayerMe Avatare

Unterstützung für Animationsstandards

  • FACS-basierte Blendshape-Systeme
  • Apple ARKit Blendshape-Standard
  • Preston Blair Phonem-Sets
  • 3ds Max Phonemsysteme
  • Jeder Charakter mit benutzerdefinierten Morph-Targets für Gesichtsausdrücke

Detaillierte Anweisungen zur Verwendung des Plugins mit Nicht-MetaHuman-Charakteren finden Sie im Custom Character Setup Guide.

Animationsvorschau

Sehen Sie sich diese kurzen Animationen an, um die Qualität der vom Plugin erstellten Lippensynchronisations-Animation in verschiedenen Charaktertypen und -modellen zu sehen:

Realistisches Modell mit MetaHuman-Charakter
Standardmodell mit MetaHuman-Charakter
Standardmodell mit benutzerdefiniertem Charakter
Standard model mit benutzerdefiniertem Charakter

Hauptfunktionen

  • Echtzeit-Lippensynchronisation von Mikrofoneingabe
  • Unterstützung für Offline-Audioverarbeitung
  • Plattformübergreifende Kompatibilität mit modellspezifischer Plattformunterstützung
  • Unterstützung für mehrere Charaktersysteme und Animationsstandards
  • Flexibles Visem-Mapping für benutzerdefinierte Charaktere
  • Universelle Sprachunterstützung – funktioniert mit jeder gesprochenen Sprache durch Audioanalyse
  • Stimmungsbewusste Gesichtsanimation für verbesserte Ausdruckskraft
  • Konfigurierbare Ausgabetypen (volles Gesicht oder nur Mundsteuerung)

Lip-Sync-Modelle

Das Plugin bietet mehrere Lip-Sync-Modelle für unterschiedliche Projektanforderungen:

Das Standard-Lip-Sync-Modell bietet effiziente, plattformübergreifende Leistung mit breiter Charakterkompatibilität:

  • Funktioniert mit MetaHumans und allen benutzerdefinierten Charaktertypen
  • Optimiert für Echtzeitleistung
  • Geringere Ressourcenanforderungen
  • Plattform-Unterstützung: Windows, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Erweiterungs-Plugin erforderlich

Um das Standard Model zu verwenden, müssen Sie ein zusätzliches Erweiterungs-Plugin installieren. Lesen Sie den Abschnitt Voraussetzungen für Installationsanweisungen.

Sie können das passende Modell basierend auf Ihren Projektanforderungen bezüglich Leistung, Charakterkompatibilität, visueller Qualität, Zielplattform und Funktionsbedarf auswählen.

Funktionsweise

Das Plugin verarbeitet Audioeingaben wie folgt:

  1. Audiodaten werden als Float-PCM-Format mit angegebenen Kanälen und Abtastrate empfangen
  2. Das Plugin verarbeitet das Audio, um Gesichtssteuerungsdaten oder Viseme je nach Modell zu generieren
  3. Bei stimmungsaktivierten Modellen wird der emotionale Kontext auf die Gesichtsanimation angewendet
  4. Die Animationsdaten steuern die Gesichtsbewegungen des Charakters in Echtzeit

Leistungsarchitektur

Runtime MetaHuman Lip Sync verwendet ausschließlich CPU-Inferenz, um konsistente, latenzarme Lip-Sync-Ergebnisse zu liefern, die für Echtzeitanwendungen geeignet sind. Standardmäßig führt das Plugin die Lip-Sync-Verarbeitung alle 10 Millisekunden durch (einstellbar – siehe Plugin-Konfiguration für alle verfügbaren Einstellungen einschließlich Verarbeitungs-Chunk-Größe, Thread-Anzahl und anderer Leistungsparameter).

Übersicht über die Modellarchitektur

Die Lip-Sync-Modelle verwenden ein kompaktes Transformer-basiertes neuronales Netzwerk, das Audio durch Mel-Spektrogramm-Analyse verarbeitet. Diese leichtgewichtige Architektur ist speziell für Echtzeitleistung mit effizienter CPU-Inferenz und minimalem Speicherbedarf ausgelegt.

Warum CPU-Inferenz?

Bei kleinen, häufigen Inferenzoperationen wie Echtzeit-Lippensynchronisation bietet die CPU-Verarbeitung bessere Latenzeigenschaften als die GPU. Bei Batch-Größe 1 und Inferenzintervallen von 10–100 ms übersteigt der GPU-Overhead durch PCIe-Transfers und Kernel-Starts oft die eigentliche Rechenzeit. Zudem ist die GPU in Spiel-Engines bereits durch Rendering, Shader und Physik ausgelastet, was zu Ressourcenkonflikten und unvorhersehbaren Latenzspitzen führt.

Hardware-Kompatibilität

Das Plugin arbeitet effizient auf den meisten Mittelklasse- und höheren CPUs, ohne dedizierte Grafikhardware zu benötigen, und bietet Echtzeitleistung auf Desktop-, Mobil- und VR-Plattformen. Für schwächere Hardware können Sie den Modelltyp auf Semi-Optimized oder Highly Optimized einstellen oder die Verarbeitungs-Chunk-Größe erhöhen, um die Echtzeitleistung mit leicht reduzierter Reaktionsfähigkeit aufrechtzuerhalten.

Schnellstart

Hier ist eine grundlegende Einrichtung zur Aktivierung der Lippensynchronisation für Ihren Charakter:

  1. Für MetaHuman-Charaktere befolgen Sie die Einrichtungsanleitung
  2. Für benutzerdefinierte Charaktere befolgen Sie die Anleitung für benutzerdefinierte Charaktere
  3. Wählen und konfigurieren Sie Ihr bevorzugtes Lip-Sync-Modell
  4. Richten Sie die Audioeingabeverarbeitung in Ihrem Blueprint ein
  5. Verbinden Sie den entsprechenden Lip-Sync-Knoten im Animation Blueprint
  6. Spielen Sie Audio ab und sehen Sie, wie Ihr Charakter mit Emotion spricht!

Zusätzliche Ressourcen

Demo-Projekte:

Zwei einsatzbereite Demo-Projekte sind verfügbar – siehe die dedizierte Demo-Projekte-Seite für vollständige Details, Downloads und Anleitungen:

Beide Demos sind plattformübergreifend (Windows, Mac, Linux, iOS, Android, Meta Quest) und werden als gepackte Builds und vollständige UE 5.6+-Quellprojekte ausgeliefert.

🎥 Video-Tutorials

Vorgestellte Demos:

Realistic Model (hochwertig) Tutorials:

Standard Model Tutorials:

Allgemeine Einrichtung:

💬 Support

  • Individuelle Entwicklung: solutions@georgy.dev (maßgeschneiderte Lösungen für Teams & Organisationen)
Join our Discord
online · support