Przegląd

Runtime MetaHuman Lip Sync to wtyczka umożliwiająca animację ruchu warg w czasie rzeczywistym, offline i na różnych platformach, zarówno dla postaci MetaHuman, jak i niestandardowych. Pozwala ona animować usta postaci w odpowiedzi na dane audio z różnych źródeł, w tym:
- Dane z mikrofonu za pomocą przechwytywalnej fali dźwiękowej z Runtime Audio Importer
- Syntezowana mowa z Runtime Text To Speech lub Runtime AI Chatbot Integrator
- Przesyłane strumieniowo lub importowane dane audio w wielu formatach za pomocą Runtime Audio Importer
- Dowolne dane audio w formacie float PCM (tablica próbek zmiennoprzecinkowych)
Wtyczka wewnętrznie generuje wizemy (wizualne reprezentacje fonemów) na podstawie danych wejściowych audio. Ponieważ działa bezpośrednio na danych audio, a nie na tekście, wtyczka obsługuje wielojęzyczne dane wejściowe, w tym między innymi angielski, hiszpański, francuski, niemiecki, japoński, chiński, koreański, rosyjski, włoski, portugalski, arabski i hindi. Dosłownie każdy język jest obsługiwany, ponieważ animacja warg jest generowana z fonemów audio, a nie z przetwarzania tekstu specyficznego dla języka.
Model Standardowy generuje 14 wizemów i wykonuje animację ruchu warg przy użyciu predefiniowanego zasobu poz (pose asset). Natomiast Modele Realistyczne (dostępne wyłącznie dla postaci MetaHuman) generują 81 zmian w sterowaniu mimiką twarzy bez polegania na predefiniowanym zasobie poz, co skutkuje znacznie bardziej realistycznymi animacjami twarzy.
Kompatybilność z postaciami
Pomimo swojej nazwy, Runtime MetaHuman Lip Sync działa z szerokim zakresem postaci, nie tylko z MetaHuman:
Popularne komercyjne systemy postaci
- Postacie Daz Genesis 8/9
- Postacie Reallusion Character Creator 3/4 (CC3/CC4)
- Postacie Mixamo
- Awatary ReadyPlayerMe
Obsługa standardów animacji
- Systemy blendshape oparte na FACS
- Standard blendshape Apple ARKit
- Zestawy fonemów Preston Blair
- Systemy fonemów 3ds Max
- Dowolna postać z niestandardowymi celami morfowania (morph targets) dla wyrazów twarzy
Szczegółowe instrukcje dotyczące korzystania z wtyczki z postaciami innymi niż MetaHuman znajdują się w Przewodniku konfiguracji postaci niestandardowych.
Podgląd animacji
Sprawdź te krótkie animacje, aby zobaczyć jakość animacji ruchu warg generowanej przez wtyczkę dla różnych typów postaci i modeli:




Kluczowe Funkcje
- Synchronizacja ust w czasie rzeczywistym z wejścia mikrofonowego
- Obsługa przetwarzania audio offline
- Kompatybilność wieloplatformowa z obsługą specyficzną dla modelu
- Obsługa wielu systemów postaci i standardów animacji
- Elastyczne mapowanie wizemów dla niestandardowych postaci
- Uniwersalna obsługa języków - działa z dowolnym językiem mówionym poprzez analizę audio
- Animacja twarzy uwzględniająca nastrój dla lepszej ekspresji
- Konfigurowalne typy wyjścia (pełna twarz lub tylko usta)
Modele Synchronizacji Ust
Wtyczka oferuje wiele modeli synchronizacji ust, aby sprostać różnym potrzebom projektu:
- Model Standardowy
- Model Realistyczny
- Model Realistyczny z Nastrojem
Standardowy model synchronizacji ust zapewnia wydajną, wieloplatformową pracę z szeroką kompatybilnością postaci:
- Działa z MetaHumanami i wszystkimi typami postaci niestandardowych
- Zoptymalizowany pod kątem wydajności w czasie rzeczywistym
- Niższe wymagania zasobów
- Pełna kompatybilność z lokalnym TTS (wtyczka Runtime Text To Speech)
- Obsługa Platform: Windows, Android, platformy oparte na Androidzie (w tym Meta Quest)
Aby używać Modelu Standardowego, musisz zainstalować dodatkową wtyczkę rozszerzającą. Zobacz sekcję Wymagania wstępne w celu uzyskania instrukcji instalacji.
Realistyczny model synchronizacji ust zapewnia lepszą wierność wizualną, szczególnie dla postaci MetaHuman:
- Ekskluzywny dla MetaHumanów z zaawansowaną animacją twarzy (81 kontrolerów twarzy)
- Wyższa jakość wizualna z bardziej naturalnymi ruchami ust
- Nieco wyższe wymagania wydajnościowe
- Ograniczona obsługa lokalnego TTS (zalecane zewnętrzne usługi TTS)
- Idealny do doświadczeń kinowych i interakcji z postaciami z bliska
- Obsługa Platform: Windows, Mac, iOS, Linux, Android, platformy oparte na Androidzie (w tym Meta Quest)
- Trzy poziomy optymalizacji: Oryginalny, Półoptymalizowany i Wysokooptymalizowany
Model Realistyczny jest zawarty w głównej wtyczce i nie wymaga żadnych dodatkowych rozszerzeń do użycia.
Model realistyczny z obsługą nastroju zapewnia animację twarzy reagującą na emocje dla postaci MetaHuman:
- Ekskluzywny dla MetaHumanów z animacją twarzy reagującą na nastrój
- 12 różnych typów nastroju (Neutralny, Szczęśliwy, Smutny, Pewny siebie, itp.)
- Konfigurowalna intensywność nastroju (od 0.0 do 1.0)
- Regulowalny czas wyprzedzenia dla lepszej synchronizacji (od 20ms do 200ms)
- Wybieralne typy wyjścia: Pełna Twarz lub tylko Kontrolery Ust
- Przetwarzanie audio w trybie strumieniowym dla aplikacji w czasie rzeczywistym
- Obsługa Platform: Windows, Mac, iOS, Linux, Android, platformy oparte na Androidzie (w tym Meta Quest)
:::
Model Włączający Nastrój zawiera zaawansowane funkcje, takie jak konfigurowalne wyprzedzenie czasowe i selektywne sterowanie wyjściem, co czyni go idealnym dla aplikacji wymagających kontroli ekspresji emocjonalnej.
Możesz wybrać odpowiedni model w oparciu o wymagania swojego projektu dotyczące wydajności, kompatybilności z postaciami, jakości wizualnej, platformy docelowej i potrzeb funkcjonalnych.
Podczas gdy wszystkie modele obsługują różne metody wprowadzania dźwięku, standardowy model Realistyczny ma ograniczoną kompatybilność z lokalnym TTS z powodu konfliktów środowiska wykonawczego ONNX. Model Realistyczny Włączający Nastrój jest jednak w pełni kompatybilny z lokalnym TTS. Dla funkcjonalności zamiany tekstu na mowę:
- Model Standardowy: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)
- Model Realistyczny: Zalecane zewnętrzne usługi TTS (OpenAI, ElevenLabs)
- Model Realistyczny Włączający Nastrój: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)
Jak to Działa
Wtyczka przetwarza wejście audio w następujący sposób:
- Dane audio są odbierane w formacie PCM typu float z określonymi kanałami i częstotliwością próbkowania
- Wtyczka przetwarza dźwięk, aby wygenerować dane sterowania mimiką lub wizemy w zależności od modelu
- Dla modeli włączających nastrój, kontekst emocjonalny jest stosowany do animacji twarzy
- Dane animacji napędzają ruchy twarzy postaci w czasie rzeczywistym
Szybki Start
Oto podstawowa konfiguracja włączenia synchronizacji ust dla twojej postaci:
- Dla postaci MetaHuman, postępuj zgodnie z Przewodnikiem Konfiguracji
- Dla niestandardowych postaci, postępuj zgodnie z Przewodnikiem Konfiguracji Niestandardowej Postaci
- Wybierz i skonfiguruj preferowany model synchronizacji ust
- Skonfiguruj przetwarzanie wejścia audio w swoim Blueprint
- Podłącz odpowiedni węzeł synchronizacji ust w Animation Blueprint
- Odtwórz dźwięk i zobacz, jak twoja postać mówi z emocjami!
Dodatkowe Zasoby
📦 Pobieranie i Linki
- Pobierz na Fab
- Strona produktu
- Pobierz Demo (Windows)
- Pobierz pliki źródłowe demo (UE 5.6) – Wymaga tej wtyczki + Runtime Audio Importer, opcjonalnie: Text To Speech / AI Chatbot. Model standardowy wymaga małej wtyczki rozszerzającej (patrz tutaj)
🎥 Samouczki Wideo
Polecane Demo:
Samouczki dla Modelu Realistycznego (Wysokiej Jakości):
- Wysokiej Jakości Synchronizacja Ust z Kontrolą Nastroju i Lokalnym TTS ⭐ NOWY
- Wysokiej Jakości Synchronizacja Ust z ElevenLabs i OpenAI TTS
- Wysokiej Jakości Synchronizacja Ust na Żywo z Mikrofonu
Samouczki dla Modelu Standardowego:
- Standardowa Synchronizacja Ust na Żywo z Mikrofonu
- Standardowa Synchronizacja Ust z Lokalnym Zamianą Tekstu na Mowę
- Standardowa Synchronizacja Ust z ElevenLabs i OpenAI TTS
Konfiguracja Ogólna:
💬 Wsparcie
- Serwer wsparcia na Discordzie
- Rozwój na Zlecenie: solutions@georgy.dev (spersonalizowane rozwiązania dla zespołów i organizacji)