Przejdź do głównej zawartości

Przegląd

Dokumentacja Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync to wtyczka umożliwiająca animację ruchu warg w czasie rzeczywistym, offline i na różnych platformach, zarówno dla postaci MetaHuman, jak i niestandardowych. Pozwala ona animować usta postaci w odpowiedzi na dane audio z różnych źródeł, w tym:

Wtyczka wewnętrznie generuje wizemy (wizualne reprezentacje fonemów) na podstawie danych wejściowych audio. Ponieważ działa bezpośrednio na danych audio, a nie na tekście, wtyczka obsługuje wielojęzyczne dane wejściowe, w tym między innymi angielski, hiszpański, francuski, niemiecki, japoński, chiński, koreański, rosyjski, włoski, portugalski, arabski i hindi. Dosłownie każdy język jest obsługiwany, ponieważ animacja warg jest generowana z fonemów audio, a nie z przetwarzania tekstu specyficznego dla języka.

Model Standardowy generuje 14 wizemów i wykonuje animację ruchu warg przy użyciu predefiniowanego zasobu poz (pose asset). Natomiast Modele Realistyczne (dostępne wyłącznie dla postaci MetaHuman) generują 81 zmian w sterowaniu mimiką twarzy bez polegania na predefiniowanym zasobie poz, co skutkuje znacznie bardziej realistycznymi animacjami twarzy.

Kompatybilność z postaciami

Pomimo swojej nazwy, Runtime MetaHuman Lip Sync działa z szerokim zakresem postaci, nie tylko z MetaHuman:

Popularne komercyjne systemy postaci

  • Postacie Daz Genesis 8/9
  • Postacie Reallusion Character Creator 3/4 (CC3/CC4)
  • Postacie Mixamo
  • Awatary ReadyPlayerMe

Obsługa standardów animacji

  • Systemy blendshape oparte na FACS
  • Standard blendshape Apple ARKit
  • Zestawy fonemów Preston Blair
  • Systemy fonemów 3ds Max
  • Dowolna postać z niestandardowymi celami morfowania (morph targets) dla wyrazów twarzy

Szczegółowe instrukcje dotyczące korzystania z wtyczki z postaciami innymi niż MetaHuman znajdują się w Przewodniku konfiguracji postaci niestandardowych.

Podgląd animacji

Sprawdź te krótkie animacje, aby zobaczyć jakość animacji ruchu warg generowanej przez wtyczkę dla różnych typów postaci i modeli:

Realistic Lip Sync Example
Realistyczny model z postacią MetaHuman
Standard Lip Sync Example
Standardowy model z postacią MetaHuman
Custom Character Lip Sync Example
Model standardowy z niestandardową postacią
Custom Character Lip Sync Example
Model standardowy z niestandardową postacią

Kluczowe Funkcje

  • Synchronizacja ust w czasie rzeczywistym z wejścia mikrofonowego
  • Obsługa przetwarzania audio offline
  • Kompatybilność wieloplatformowa z obsługą specyficzną dla modelu
  • Obsługa wielu systemów postaci i standardów animacji
  • Elastyczne mapowanie wizemów dla niestandardowych postaci
  • Uniwersalna obsługa języków - działa z dowolnym językiem mówionym poprzez analizę audio
  • Animacja twarzy uwzględniająca nastrój dla lepszej ekspresji
  • Konfigurowalne typy wyjścia (pełna twarz lub tylko usta)

Modele Synchronizacji Ust

Wtyczka oferuje wiele modeli synchronizacji ust, aby sprostać różnym potrzebom projektu:

Standardowy model synchronizacji ust zapewnia wydajną, wieloplatformową pracę z szeroką kompatybilnością postaci:

  • Działa z MetaHumanami i wszystkimi typami postaci niestandardowych
  • Zoptymalizowany pod kątem wydajności w czasie rzeczywistym
  • Niższe wymagania zasobów
  • Pełna kompatybilność z lokalnym TTS (wtyczka Runtime Text To Speech)
  • Obsługa Platform: Windows, Android, platformy oparte na Androidzie (w tym Meta Quest)
Wymagana Wtyczka Rozszerzająca

Aby używać Modelu Standardowego, musisz zainstalować dodatkową wtyczkę rozszerzającą. Zobacz sekcję Wymagania wstępne w celu uzyskania instrukcji instalacji.

Możesz wybrać odpowiedni model w oparciu o wymagania swojego projektu dotyczące wydajności, kompatybilności z postaciami, jakości wizualnej, platformy docelowej i potrzeb funkcjonalnych.

Uwaga Dotycząca Kompatybilności TTS

Podczas gdy wszystkie modele obsługują różne metody wprowadzania dźwięku, standardowy model Realistyczny ma ograniczoną kompatybilność z lokalnym TTS z powodu konfliktów środowiska wykonawczego ONNX. Model Realistyczny Włączający Nastrój jest jednak w pełni kompatybilny z lokalnym TTS. Dla funkcjonalności zamiany tekstu na mowę:

  • Model Standardowy: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)
  • Model Realistyczny: Zalecane zewnętrzne usługi TTS (OpenAI, ElevenLabs)
  • Model Realistyczny Włączający Nastrój: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)

Jak to Działa

Wtyczka przetwarza wejście audio w następujący sposób:

  1. Dane audio są odbierane w formacie PCM typu float z określonymi kanałami i częstotliwością próbkowania
  2. Wtyczka przetwarza dźwięk, aby wygenerować dane sterowania mimiką lub wizemy w zależności od modelu
  3. Dla modeli włączających nastrój, kontekst emocjonalny jest stosowany do animacji twarzy
  4. Dane animacji napędzają ruchy twarzy postaci w czasie rzeczywistym

Szybki Start

Oto podstawowa konfiguracja włączenia synchronizacji ust dla twojej postaci:

  1. Dla postaci MetaHuman, postępuj zgodnie z Przewodnikiem Konfiguracji
  2. Dla niestandardowych postaci, postępuj zgodnie z Przewodnikiem Konfiguracji Niestandardowej Postaci
  3. Wybierz i skonfiguruj preferowany model synchronizacji ust
  4. Skonfiguruj przetwarzanie wejścia audio w swoim Blueprint
  5. Podłącz odpowiedni węzeł synchronizacji ust w Animation Blueprint
  6. Odtwórz dźwięk i zobacz, jak twoja postać mówi z emocjami!

Dodatkowe Zasoby

📦 Pobieranie i Linki

🎥 Samouczki Wideo

Polecane Demo:

Samouczki dla Modelu Realistycznego (Wysokiej Jakości):

Samouczki dla Modelu Standardowego:

Konfiguracja Ogólna:

💬 Wsparcie