Überblick

Runtime MetaHuman Lip Sync ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Lippensynchronisation sowohl für MetaHumans als auch für benutzerdefinierte Charaktere ermöglicht. Es erlaubt Ihnen, die Lippen eines Charakters als Reaktion auf Audioeingaben aus verschiedenen Quellen zu animieren, darunter:
- Mikrofoneingabe über Runtime Audio Importer's capturable sound wave
- Synthetisierte Sprache von Runtime Text To Speech oder Runtime AI Chatbot Integrator
- Gestreamte oder importierte Audiodaten in mehreren Formaten über Runtime Audio Importer
- Beliebige Audiodaten im Float-PCM-Format (ein Array von Gleitkomma-Samples)
Das Plugin erzeugt intern Viseme (visuelle Darstellungen von Phonemen) basierend auf der Audioeingabe. Da es direkt mit Audiodaten und nicht mit Text arbeitet, unterstützt das Plugin mehrsprachige Eingaben, einschließlich, aber nicht beschränkt auf Englisch, Spanisch, Französisch, Deutsch, Japanisch, Chinesisch, Koreanisch, Russisch, Italienisch, Portugiesisch, Arabisch und Hindi. Buchstäblich jede Sprache wird unterstützt, da die Lippensynchronisation aus Audiophonemen und nicht aus sprachspezifischer Textverarbeitung generiert wird.
Das Standard Model erzeugt 14 Viseme und führt die Lippensynchronisations-Animation unter Verwendung eines vordefinierten Pose-Assets durch. Im Gegensatz dazu erzeugen die Realistic Models (exklusiv für MetaHuman und ARKit-basierte Charaktere) 81 Gesichtssteuerungsänderungen, ohne auf ein vordefiniertes Pose-Asset angewiesen zu sein, was zu erheblich realistischeren Gesichtsanimationen führt.
Charakterkompatibilität
Trotz seines Namens funktioniert Runtime MetaHuman Lip Sync mit einer Vielzahl von Charakteren über MetaHumans hinaus:
Beliebte kommerzielle Charaktersysteme
- Daz Genesis 8/9 Charaktere
- Reallusion Character Creator 3/4 (CC3/CC4) Charaktere
- Mixamo Charaktere
- ReadyPlayerMe Avatare
Unterstützung für Animationsstandards
- FACS-basierte Blendshape-Systeme
- Apple ARKit Blendshape-Standard
- Preston Blair Phonem-Sets
- 3ds Max Phonemsysteme
- Jeder Charakter mit benutzerdefinierten Morph-Targets für Gesichtsausdrücke
Detaillierte Anweisungen zur Verwendung des Plugins mit Nicht-MetaHuman-Charakteren finden Sie im Custom Character Setup Guide.
Animationsvorschau
Sehen Sie sich diese kurzen Animationen an, um die Qualität der vom Plugin erstellten Lippensynchronisations-Animation in verschiedenen Charaktertypen und -modellen zu sehen:
Hauptfunktionen
- Echtzeit-Lippensynchronisation von Mikrofoneingabe
- Unterstützung für Offline-Audioverarbeitung
- Plattformübergreifende Kompatibilität mit modellspezifischer Plattformunterstützung
- Unterstützung für mehrere Charaktersysteme und Animationsstandards
- Flexibles Visem-Mapping für benutzerdefinierte Charaktere
- Universelle Sprachunterstützung – funktioniert mit jeder gesprochenen Sprache durch Audioanalyse
- Stimmungsbewusste Gesichtsanimation für verbesserte Ausdruckskraft
- Konfigurierbare Ausgabetypen (volles Gesicht oder nur Mundsteuerung)
Lip-Sync-Modelle
Das Plugin bietet mehrere Lip-Sync-Modelle für unterschiedliche Projektanforderungen:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Das Standard-Lip-Sync-Modell bietet effiziente, plattformübergreifende Leistung mit breiter Charakterkompatibilität:
- Funktioniert mit MetaHumans und allen benutzerdefinierten Charaktertypen
- Optimiert für Echtzeitleistung
- Geringere Ressourcenanforderungen
- Plattform-Unterstützung: Windows, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Um das Standard Model zu verwenden, müssen Sie ein zusätzliches Erweiterungs-Plugin installieren. Lesen Sie den Abschnitt Voraussetzungen für Installationsanweisungen.
Das realistische Lip-Sync-Modell liefert verbesserte visuelle Genauigkeit speziell für MetaHuman-Charaktere:
- Kompatibel mit MetaHuman und ARKit-basierten Charakteren mit erweiterter Gesichtsanimation (81 Gesichtssteuerungen)
- Höhere visuelle Qualität mit natürlicheren Mundbewegungen
- Leicht höhere Leistungsanforderungen
- Streaming-Audioverarbeitung für Echtzeitanwendungen
- Ideal für filmische Erlebnisse und Charakterinteraktionen aus nächster Nähe
- Drei Optimierungsstufen: Original, Semi-Optimized und Highly Optimized
- Konfigurierbare Morph-Target-Sets (siehe Morph-Target-Set-Auswahl)
- Plattform-Unterstützung: Windows, Mac, iOS, Linux, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Das Realistic Model ist im Haupt-Plugin enthalten und erfordert keine zusätzlichen Erweiterungen.
Das stimmungsaktivierte realistische Modell bietet emotionsbewusste Gesichtsanimation für MetaHuman-Charaktere:
- Kompatibel mit MetaHuman und ARKit-basierten Charakteren mit stimmungsempfindlicher Gesichtsanimation (81 Gesichtssteuerungen)
- 12 verschiedene Stimmungstypen (Neutral, Happy, Sad, Confident usw.)
- Konfigurierbare Stimmungsintensität (0,0 bis 1,0)
- Einstellbare Lookahead-Zeit für verbesserte Synchronisation (20 ms bis 200 ms)
- Auswählbare Ausgabetypen: Volles Gesicht oder nur Mundsteuerung
- Streaming-Audioverarbeitung für Echtzeitanwendungen
- Konfigurierbare Morph-Target-Sets (siehe Morph-Target-Set-Auswahl)
- Plattform-Unterstützung: Windows, Mac, iOS, Linux, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Das Mood-Enabled Realistic Model ist im Haupt-Plugin enthalten und erfordert keine zusätzlichen Erweiterungen.
Sie können das passende Modell basierend auf Ihren Projektanforderungen bezüglich Leistung, Charakterkompatibilität, visueller Qualität, Zielplattform und Funktionsbedarf auswählen.
Funktionsweise
Das Plugin verarbeitet Audioeingaben wie folgt:
- Audiodaten werden als Float-PCM-Format mit angegebenen Kanälen und Abtastrate empfangen
- Das Plugin verarbeitet das Audio, um Gesichtssteuerungsdaten oder Viseme je nach Modell zu generieren
- Bei stimmungsaktivierten Modellen wird der emotionale Kontext auf die Gesichtsanimation angewendet
- Die Animationsdaten steuern die Gesichtsbewegungen des Charakters in Echtzeit
Leistungsarchitektur
Runtime MetaHuman Lip Sync verwendet ausschließlich CPU-Inferenz, um konsistente, latenzarme Lip-Sync-Ergebnisse zu liefern, die für Echtzeitanwendungen geeignet sind. Standardmäßig führt das Plugin die Lip-Sync-Verarbeitung alle 10 Millisekunden durch (einstellbar – siehe Plugin-Konfiguration für alle verfügbaren Einstellungen einschließlich Verarbeitungs-Chunk-Größe, Thread-Anzahl und anderer Leistungsparameter).
Übersicht über die Modellarchitektur
Die Lip-Sync-Modelle verwenden ein kompaktes Transformer-basiertes neuronales Netzwerk, das Audio durch Mel-Spektrogramm-Analyse verarbeitet. Diese leichtgewichtige Architektur ist speziell für Echtzeitleistung mit effizienter CPU-Inferenz und minimalem Speicherbedarf ausgelegt.
Warum CPU-Inferenz?
Bei kleinen, häufigen Inferenzoperationen wie Echtzeit-Lippensynchronisation bietet die CPU-Verarbeitung bessere Latenzeigenschaften als die GPU. Bei Batch-Größe 1 und Inferenzintervallen von 10–100 ms übersteigt der GPU-Overhead durch PCIe-Transfers und Kernel-Starts oft die eigentliche Rechenzeit. Zudem ist die GPU in Spiel-Engines bereits durch Rendering, Shader und Physik ausgelastet, was zu Ressourcenkonflikten und unvorhersehbaren Latenzspitzen führt.
Hardware-Kompatibilität
Das Plugin arbeitet effizient auf den meisten Mittelklasse- und höheren CPUs, ohne dedizierte Grafikhardware zu benötigen, und bietet Echtzeitleistung auf Desktop-, Mobil- und VR-Plattformen. Für schwächere Hardware können Sie den Modelltyp auf Semi-Optimized oder Highly Optimized einstellen oder die Verarbeitungs-Chunk-Größe erhöhen, um die Echtzeitleistung mit leicht reduzierter Reaktionsfähigkeit aufrechtzuerhalten.
Schnellstart
Hier ist eine grundlegende Einrichtung zur Aktivierung der Lippensynchronisation für Ihren Charakter:
- Für MetaHuman-Charaktere befolgen Sie die Einrichtungsanleitung
- Für benutzerdefinierte Charaktere befolgen Sie die Anleitung für benutzerdefinierte Charaktere
- Wählen und konfigurieren Sie Ihr bevorzugtes Lip-Sync-Modell
- Richten Sie die Audioeingabeverarbeitung in Ihrem Blueprint ein
- Verbinden Sie den entsprechenden Lip-Sync-Knoten im Animation Blueprint
- Spielen Sie Audio ab und sehen Sie, wie Ihr Charakter mit Emotion spricht!
Zusätzliche Ressourcen
📦 Downloads und Links
Demo-Projekte:
Zwei einsatzbereite Demo-Projekte sind verfügbar – siehe die dedizierte Demo-Projekte-Seite für vollständige Details, Downloads und Anleitungen:
- Vollständiger KI-Konversations-NPC-Workflow – Spracherkennung + LLM-Chatbot + TTS + Lip-Sync
- Einfache Lip-Sync-Demo – Mikrofoneingabe, Audiodateien, TTS
Beide Demos sind plattformübergreifend (Windows, Mac, Linux, iOS, Android, Meta Quest) und werden als gepackte Builds und vollständige UE 5.6+-Quellprojekte ausgeliefert.
🎥 Video-Tutorials
Vorgestellte Demos:
Realistic Model (hochwertig) Tutorials:
- Hochwertige Lip-Sync aus Audiodatei/Puffer
- Hochwertige Lip-Sync mit Stimmungskontrolle & lokalem TTS
- Hochwertige Lip-Sync mit ElevenLabs & OpenAI TTS
- Hochwertige Live-Mikrofon-Lip-Sync
Standard Model Tutorials:
- Standard Live-Mikrofon-Lip-Sync
- Standard Lip-Sync mit lokalem Text-to-Speech
- Standard Lip-Sync mit ElevenLabs & OpenAI TTS
Allgemeine Einrichtung:
- Hinzufügen eines benutzerdefinierten MetaHuman-Charakters zum Demo-Projekt
- Einrichtungs-Tutorial-Video
- Demo-Projekt-Durchgang (älter)
💬 Support
- Individuelle Entwicklung: solutions@georgy.dev (maßgeschneiderte Lösungen für Teams & Organisationen)