Übersicht

Runtime MetaHuman Lip Sync ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifendes Lippen-Synchronisieren sowohl für MetaHuman- als auch für benutzerdefinierte Charaktere ermöglicht. Es erlaubt Ihnen, die Lippen einer Figur als Reaktion auf Audioeingaben aus verschiedenen Quellen zu animieren, darunter:

Mikrofoneingabe über Runtime Audio Importer's erfassbare Schallwelle
Synthetisierte Sprache von Runtime Text To Speech oder Runtime AI Chatbot Integrator
Gestreamte oder importierte Audiodaten in mehreren Formaten über Runtime Audio Importer
Beliebige Audiodaten im Float-PCM-Format (ein Array von Gleitkomma-Abtastwerten)

Das Plugin generiert intern Viseme (visuelle Darstellungen von Phonemen) basierend auf der Audioeingabe. Da es direkt mit Audiodaten und nicht mit Text arbeitet, unterstützt das Plugin mehrsprachige Eingaben, einschließlich, aber nicht beschränkt auf Englisch, Spanisch, Französisch, Deutsch, Japanisch, Chinesisch, Koreanisch, Russisch, Italienisch, Portugiesisch, Arabisch und Hindi. Praktisch jede Sprache wird unterstützt, da die Lippensynchronisation aus Audio-Phonemen und nicht aus sprachspezifischer Textverarbeitung generiert wird.

Das Standardmodell erzeugt 14 Viseme und führt die Lippen-Synchronisationsanimation mithilfe eines vordefinierten Pose-Assets durch. Im Gegensatz dazu generieren die realistischen Modelle (exklusiv für MetaHuman- und ARKit-basierte Charaktere) 81 Gesichtssteuerungsänderungen, ohne auf ein vordefiniertes Pose-Asset angewiesen zu sein, was zu deutlich realistischeren Gesichtsanimationen führt.

Figurenkompatibilität

Trotz seines Namens funktioniert Runtime MetaHuman Lip Sync mit einer Vielzahl von Charakteren, die über MetaHumans hinausgehen:

Beliebte kommerzielle Charaktersysteme

Daz Genesis 8/9-Charaktere
Reallusion Character Creator 3/4 (CC3/CC4)-Charaktere
Mixamo-Charaktere
ReadyPlayerMe-Avatare

Unterstützung für Animationsstandards

FACS-basierte Blendshape-Systeme
Apple ARKit-Blendshape-Standard
Preston-Blair-Phonemsets
3ds-Max-Phonemsysteme
Jeder Charakter mit benutzerdefinierten Morph-Targets für Gesichtsausdrücke

Für Nicht-MetaHuman-Charaktere, die das Standardmodell verwenden, siehe die Anleitung zur Einrichtung benutzerdefinierter Charaktere. Für ARKit-basierte Charaktere, die die realistischen Modelle verwenden, siehe Auswahl des Morph-Ziel-Sets.

Animationsvorschau

Sehen Sie sich diese kurzen Animationen an, um die Qualität der Lippen-Synchronisations-Animation zu beurteilen, die das Plugin für verschiedene Charaktertypen und Modelle erzeugt:

Realistisches Modell mit MetaHuman-Charakter

Standardmodell mit MetaHuman-Charakter

Standardmodell mit benutzerdefiniertem Charakter

Hauptmerkmale

Echtzeit-Lippensynchronisation über Mikrofoneingabe
Unterstützung für Offline-Audioverarbeitung
Plattformübergreifende Kompatibilität mit modellspezifischer Plattformunterstützung
Unterstützung für mehrere Charaktersysteme und Animationsstandards
Flexibles Visem-Mapping für benutzerdefinierte Charaktere
Universelle Sprachunterstützung – funktioniert mit jeder gesprochenen Sprache durch Audioanalyse
Stimmungsbewusste Gesichtsanimation für verbesserte Ausdruckskraft
Konfigurierbare Ausgabetypen (Steuerung des gesamten Gesichts oder nur des Mundbereichs)
Optionale Augenanimationshilfen für Lidschläge und Blickverfolgung

Lippensynchronisationsmodelle

Das Plugin bietet mehrere Lippen-Synchronisationsmodelle, um unterschiedlichen Projektanforderungen gerecht zu werden:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Das Standard-Lippensynchronisationsmodell bietet eine effiziente, plattformübergreifende Leistung mit breiter Charakterkompatibilität:

Funktioniert mit MetaHumans und allen benutzerdefinierten Charaktertypen
Optimiert für Echtzeitleistung
Geringere Ressourcenanforderungen
Plattformunterstützung: Windows, Android, Android-basierte Plattformen (einschließlich Meta Quest)

Erforderliches Erweiterungs-Plugin

Um das Standardmodell zu verwenden, müssen Sie ein zusätzliches Erweiterungs-Plugin installieren. Siehe den Abschnitt „Voraussetzungen“ für Installationsanweisungen.

Sie können das passende Modell basierend auf Ihren Projektanforderungen in Bezug auf Leistung, Charakterkompatibilität, visuelle Qualität, Zielplattform und Funktionsanforderungen auswählen.

So funktioniert es

Das Plugin verarbeitet Audioeingaben auf folgende Weise:

Audiodaten werden als Float PCM-Format mit angegebenen Kanälen und Abtastrate empfangen
Das Plugin verarbeitet die Audiodaten, um Gesichtssteuerungsdaten oder Viseme zu generieren, abhängig vom Modell
Bei stimmungsfähigen Modellen wird emotionaler Kontext auf die Gesichtsanimation angewendet
Die Animationsdaten steuern die Gesichtsbewegungen der Figur in Echtzeit

Leistungsarchitektur

Runtime MetaHuman Lip Sync verwendet ausschließlich CPU-Inferenz, um konsistente Lip-Sync-Ergebnisse mit niedriger Latenz zu liefern, die für Echtzeitanwendungen geeignet sind. Standardmäßig führt das Plugin die Lip-Sync-Verarbeitung alle 10 Millisekunden durch (anpassbar – siehe Plugin-Konfiguration für alle verfügbaren Einstellungen, einschließlich Verarbeitungs-Chunk-Größe, Thread-Anzahl und andere Leistungsparameter).

Übersicht über die Modellarchitektur

Die Lippen-Synchronisationsmodelle verwenden ein kompaktes, auf Transformatoren basierendes neuronales Netzwerk, das Audio durch Mel-Spektrogramm-Analyse verarbeitet. Diese leichte Architektur ist speziell für Echtzeitleistung mit effizienter CPU-Inferenz und minimalem Speicherverbrauch ausgelegt.

Warum CPU-Inferenz?

Bei kleinen, häufigen Inferenzoperationen wie Echtzeit-Lippensynchronisation bietet die CPU-Verarbeitung bessere Latenzeigenschaften als die GPU. Bei einer Batch-Größe von 1 mit Inferenzintervallen von 10–100 ms übersteigt der GPU-Overhead durch PCIe-Transfers und Kernel-Starts oft die tatsächliche Rechenzeit. Zudem ist die GPU in Spiel-Engines bereits durch Rendering, Shader und Physik ausgelastet, was zu Ressourcenkonflikten führt, die unvorhersehbare Latenzspitzen verursachen.

Hardware-Kompatibilität

Das Plugin arbeitet effizient auf den meisten Mittelklasse- und höheren CPUs, ohne dass dedizierte Grafikhardware erforderlich ist, und bietet Echtzeitleistung auf Desktop-, Mobil- und VR-Plattformen. Für schwächere Hardware können Sie den Modelltyp auf Semi-Optimiert oder Hochoptimiert einstellen oder die Verarbeitungs-Chunk-Größe erhöhen, um die Echtzeitleistung bei leicht reduzierter Reaktionsfähigkeit beizubehalten.

Schnellstart

Hier ist eine grundlegende Einrichtung zur Aktivierung von Lippen-Synchronisation für Ihren Charakter:

Für MetaHuman-Charaktere folgen Sie der Einrichtungsanleitung
Für benutzerdefinierte Charaktere folgen Sie der Einrichtungsanleitung für benutzerdefinierte Charaktere
Wählen und konfigurieren Sie Ihr bevorzugtes Lippen-Synchronisationsmodell
Richten Sie die Audioeingabeverarbeitung in Ihrem Blueprint ein
Verbinden Sie den entsprechenden Lippen-Synchronisationsknoten im Animations-Blueprint
Spielen Sie Audio ab und sehen Sie, wie sich Ihr Charakter synchron animiert

Optionale Augenanimation

Das Plugin enthält außerdem optionale Helfer für automatisches Blinzeln und Blickverfolgung bei MetaHumans. Diese sind unabhängig von der Lippensynchronisation und können eigenständig oder darüber geschichtet verwendet werden. Siehe Augenanimationshelfer.

Zusätzliche Ressourcen

📦 Downloads & Links

Demoprojekte:

Zwei einsatzbereite Demoprojekte sind verfügbar – siehe die spezielle Seite Demoprojekte für vollständige Details, Downloads und Anleitungen:

Kompletter KI-gesteuerter Konversations-NPC-Workflow - Spracherkennung + LLM-Chatbot + TTS + Lippen-Synchronisation
Grundlegende Lippen-Synchronisations-Demo - Mikrofoneingabe, Audiodateien, TTS

Beide Demos sind plattformübergreifend (Windows, Mac, Linux, iOS, Android, Meta Quest) und werden als gepackte Builds sowie als vollständige UE 5.6+-Quellprojekte ausgeliefert.

🎥 Video-Tutorials

Vorgestellte Demos:

Tutorials für realistische Modelle (hochwertig):

Standard-Modell-Tutorials:

Allgemeine Einrichtung:

💬 Support

Individuelle Entwicklung: solutions@georgy.dev (maßgeschneiderte Lösungen für Teams & Organisationen)

Join our Discord

online · support

Figurenkompatibilität​

Beliebte kommerzielle Charaktersysteme​

Unterstützung für Animationsstandards​

Animationsvorschau​

Hauptmerkmale​

Lippensynchronisationsmodelle​

So funktioniert es​

Leistungsarchitektur​

Übersicht über die Modellarchitektur​

Warum CPU-Inferenz?​

Hardware-Kompatibilität​

Schnellstart​

Optionale Augenanimation​

Zusätzliche Ressourcen​

📦 Downloads & Links​

🎥 Video-Tutorials​

Vorgestellte Demos:​

Tutorials für realistische Modelle (hochwertig):​

Standard-Modell-Tutorials:​

Allgemeine Einrichtung:​

💬 Support​