Panoramica

Runtime MetaHuman Lip Sync è un plugin che consente la sincronizzazione labiale in tempo reale, offline e multipiattaforma sia per MetaHuman che per personaggi personalizzati. Ti permette di animare le labbra di un personaggio in risposta all'input audio da varie fonti, tra cui:
- Input da microfono tramite capturable sound wave di Runtime Audio Importer
- Voce sintetizzata da Runtime Text To Speech o Runtime AI Chatbot Integrator
- Dati audio in streaming o importati in molteplici formati tramite Runtime Audio Importer
- Qualsiasi dato audio in formato float PCM (un array di campioni in virgola mobile)
Il plugin genera internamente visemi (rappresentazioni visive dei fonemi) in base all'input audio. Poiché lavora direttamente con i dati audio piuttosto che con il testo, il plugin supporta input multilingue inclusi ma non limitati a inglese, spagnolo, francese, tedesco, giapponese, cinese, coreano, russo, italiano, portoghese, arabo e hindi. Letteralmente qualsiasi lingua è supportata poiché la sincronizzazione labiale viene generata dai fonemi audio anziché dall'elaborazione testuale specifica della lingua.
Il Modello Standard produce 14 visemi ed esegue l'animazione di sincronizzazione labiale utilizzando un asset di pose predefinito. Al contrario, i Modelli Realistici (esclusivi per i personaggi basati su MetaHuman e ARKit) generano 81 cambiamenti di controllo facciale senza fare affidamento su un asset di pose predefinito, risultando in animazioni facciali significativamente più realistiche.
Compatibilità con i Personaggi
Nonostante il nome, Runtime MetaHuman Lip Sync funziona con un'ampia gamma di personaggi oltre ai semplici MetaHuman:
Sistemi di Personaggi Commerciali Popolari
- Personaggi Daz Genesis 8/9
- Personaggi Reallusion Character Creator 3/4 (CC3/CC4)
- Personaggi Mixamo
- Avatar ReadyPlayerMe
Supporto per Standard di Animazione
- Sistemi di blendshape basati su FACS
- Standard di blendshape Apple ARKit
- Set di fonemi Preston Blair
- Sistemi fonemici di 3ds Max
- Qualsiasi personaggio con morph target personalizzati per le espressioni facciali
Per istruzioni dettagliate sull'uso del plugin con personaggi non MetaHuman, consulta la Guida alla configurazione dei personaggi personalizzati.
Anteprima dell'Animazione
Guarda queste brevi animazioni per vedere la qualità della sincronizzazione labiale prodotta dal plugin con diversi tipi di personaggi e modelli:
Caratteristiche principali
- Sincronizzazione labiale in tempo reale dall'input microfonico
- Supporto per l'elaborazione audio offline
- Compatibilità multipiattaforma con supporto specifico per modello e piattaforma
- Supporto per diversi sistemi di personaggi e standard di animazione
- Mappatura flessibile dei visemi per personaggi personalizzati
- Supporto linguistico universale - funziona con qualsiasi lingua parlata attraverso l'analisi audio
- Animazione facciale sensibile all'umore per una maggiore espressività
- Tipi di output configurabili (controlli completi del viso o solo della bocca)
Modelli di sincronizzazione labiale
Il plugin offre diversi modelli di sincronizzazione labiale per adattarsi alle esigenze del progetto:
- Modello Standard
- Modello Realistico
- Modello Realistico con Umore
Il modello standard offre prestazioni efficienti e multipiattaforma con ampia compatibilità tra i personaggi:
- Funziona con MetaHuman e tutti i tipi di personaggi personalizzati
- Ottimizzato per prestazioni in tempo reale
- Requisiti di risorse inferiori
- Supporto piattaforma: Windows, Android, piattaforme basate su Android (incluso Meta Quest)
Per utilizzare il Modello Standard, è necessario installare un plugin di estensione aggiuntivo. Consulta la sezione Prerequisiti per le istruzioni di installazione.
Il modello realistico offre una maggiore fedeltà visiva specificamente per i personaggi MetaHuman:
- Compatibile con i personaggi MetaHuman e basati su ARKit con animazione facciale avanzata (81 controlli facciali)
- Maggiore qualità visiva con movimenti della bocca più naturali
- Requisiti di prestazioni leggermente più elevati
- Elaborazione audio in streaming per applicazioni in tempo reale
- Ideale per esperienze cinematografiche e interazioni ravvicinate con i personaggi
- Tre livelli di ottimizzazione: Original, Semi-Optimized e Highly Optimized
- Set di morph target configurabili (vedi Selezione del set di morph target)
- Supporto piattaforma: Windows, Mac, iOS, Linux, Android, piattaforme basate su Android (incluso Meta Quest)
Il Modello Realistico è incluso nel plugin principale e non richiede estensioni aggiuntive per essere utilizzato.
Il modello realistico con umore fornisce un'animazione facciale consapevole delle emozioni per i personaggi MetaHuman:
- Compatibile con personaggi MetaHuman e basati su ARKit con animazione facciale reattiva all'umore (81 controlli facciali)
- 12 diversi tipi di umore (Neutrale, Felice, Triste, Fiducioso, ecc.)
- Intensità dell'umore configurabile (da 0.0 a 1.0)
- Tempo di anticipo regolabile per una sincronizzazione migliorata (da 20ms a 200ms)
- Tipi di output selezionabili: controlli completi del viso o solo della bocca
- Elaborazione audio in streaming per applicazioni in tempo reale
- Set di morph target configurabili (vedi Selezione del set di morph target)
- Supporto piattaforma: Windows, Mac, iOS, Linux, Android, piattaforme basate su Android (incluso Meta Quest)
Il Modello Realistico con Umore è incluso nel plugin principale e non richiede estensioni aggiuntive per essere utilizzato.
Puoi scegliere il modello appropriato in base ai requisiti del progetto in termini di prestazioni, compatibilità dei personaggi, qualità visiva, piattaforma di destinazione e esigenze di funzionalità.
Come funziona
Il plugin elabora l'input audio nel modo seguente:
- I dati audio vengono ricevuti in formato PCM float con il numero di canali e la frequenza di campionamento specificati
- Il plugin elabora l'audio per generare dati di controllo facciale o visemi a seconda del modello
- Per i modelli con umore, il contesto emotivo viene applicato all'animazione facciale
- I dati di animazione guidano i movimenti facciali del personaggio in tempo reale
Architettura delle prestazioni
Runtime MetaHuman Lip Sync utilizza un'inferenza solo CPU per fornire risultati di sincronizzazione labiale a bassa latenza e coerenti, adatti per applicazioni in tempo reale. Di default, il plugin esegue l'elaborazione della sincronizzazione labiale ogni 10 millisecondi (regolabile - vedi Configurazione del plugin per tutte le impostazioni disponibili, inclusi Dimensione del blocco di elaborazione, numero di thread e altri parametri di prestazioni).
Panoramica dell'architettura del modello
I modelli di sincronizzazione labiale utilizzano una rete neurale compatta basata su transformer che elabora l'audio tramite analisi del mel-spettrogramma. Questa architettura leggera è specificamente progettata per prestazioni in tempo reale con inferenza efficiente sulla CPU e un'impronta di memoria minima.
Perché l'inferenza sulla CPU?
Per operazioni di inferenza piccole e frequenti come la sincronizzazione labiale in tempo reale, l'elaborazione su CPU offre una latenza migliore rispetto alla GPU. Con una dimensione batch di 1 e intervalli di inferenza di 10-100ms, l'overhead della GPU dovuto ai trasferimenti PCIe e all'avvio dei kernel spesso supera il tempo di calcolo effettivo. Inoltre, nei motori di gioco la GPU è già saturata dal rendering, dagli shader e dalla fisica, creando una contesa di risorse che introduce picchi di latenza imprevedibili.
Compatibilità hardware
Il plugin funziona in modo efficiente sulla maggior parte delle CPU di fascia media e superiore senza richiedere hardware grafico dedicato, offrendo prestazioni in tempo reale su piattaforme desktop, mobili e VR. Per hardware meno potente, è possibile regolare il Tipo di modello su Semi-Optimized o Highly Optimized, oppure aumentare la Dimensione del blocco di elaborazione per mantenere le prestazioni in tempo reale con una reattività leggermente ridotta.
Avvio rapido
Ecco una configurazione di base per abilitare la sincronizzazione labiale sul tuo personaggio:
- Per i personaggi MetaHuman, segui la Guida alla configurazione
- Per i personaggi personalizzati, segui la Guida alla configurazione per personaggi personalizzati
- Scegli e configura il tuo modello di sincronizzazione labiale preferito
- Imposta l'elaborazione dell'input audio nel tuo Blueprint
- Collega il nodo di sincronizzazione labiale appropriato nell'Animation Blueprint
- Riproduci l'audio e guarda il tuo personaggio parlare con emozione!
Risorse aggiuntive
📦 Download e collegamenti
Progetti demo:
Due progetti demo pronti all'uso sono disponibili - consulta la pagina dedicata ai Progetti demo per tutti i dettagli, i download e le procedure guidate:
- Flusso di lavoro completo dell'NPC conversazionale AI - riconoscimento vocale + chatbot LLM + TTS + sincronizzazione labiale
- Demo di sincronizzazione labiale di base - input microfonico, file audio, TTS
Entrambe le demo sono multipiattaforma (Windows, Mac, Linux, iOS, Android, Meta Quest) e vengono fornite come build pacchettizzate e progetti sorgente completi per UE 5.6+.
🎥 Tutorial video
Demo in evidenza:
Tutorial per il modello realistico (alta qualità):
- Sincronizzazione labiale di alta qualità da file audio/buffer
- Sincronizzazione labiale di alta qualità con controllo dell'umore e TTS locale
- Sincronizzazione labiale di alta qualità con ElevenLabs e OpenAI TTS
- Sincronizzazione labiale di alta qualità con microfono in tempo reale
Tutorial per il modello standard:
- Sincronizzazione labiale standard con microfono in tempo reale
- Sincronizzazione labiale standard con sintesi vocale locale
- Sincronizzazione labiale standard con ElevenLabs e OpenAI TTS
Configurazione generale:
- Aggiungere un personaggio MetaHuman personalizzato al progetto demo
- Video tutorial di configurazione
- Procedura guidata del progetto demo (versione precedente)
💬 Supporto
- Sviluppo personalizzato: solutions@georgy.dev (soluzioni su misura per team e organizzazioni)