Projetos de Demonstração
Para ajudá-lo a começar rapidamente com o Runtime MetaHuman Lip Sync, dois projetos de demonstração prontos para uso estão disponíveis. Ambos são construídos com o Unreal Engine 5.6+, são somente Blueprint e rodam multiplataforma em Windows, Mac, Linux, iOS, Android e plataformas baseadas em Android (incluindo Meta Quest).
Projetos de Demonstração Disponíveis
- AI Conversational NPC
- Basic Lip Sync Demo
Um fluxo de trabalho conversacional completo de NPC com IA, combinando reconhecimento de fala, um chatbot de IA (LLM), texto-para-fala e reprodução de áudio com sincronia labial em tempo real - tudo funcionando junto em um único projeto.
Visão Geral do Pipeline
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Vídeos
Prévia rápida (~30 seg)
Uma breve demonstração da demo em ação.
Passo a passo completo
Um passo a passo detalhado cobrindo configuração, definições e todo o pipeline conversacional.
Downloads
Plugins obrigatórios e opcionais
O projeto de demonstração é modular - você só precisa dos plugins para os provedores que deseja usar.
| Plugin | Finalidade | Obrigatório? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animação de sincronização labial | ✅ Sempre |
| Runtime Audio Importer | Captura e processamento de áudio | ✅ Sempre |
| Runtime Speech Recognizer | Reconhecimento de fala offline (whisper.cpp) | ✅ Sempre |
| Runtime AI Chatbot Integrator | LLMs externos (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) e/ou TTS externo (OpenAI, ElevenLabs) | 🔶 Opcional |
| Runtime Local LLM | Inferência de LLM local via llama.cpp (Llama, Mistral, Gemma, etc, modelos GGUF) | 🔶 Opcional |
| Runtime Text To Speech | TTS local via Piper e Kokoro | 🔶 Opcional |
Embora cada plugin acima seja individualmente opcional, você precisa de pelo menos um provedor de LLM e pelo menos um provedor de TTS para a demonstração funcionar. Misture e combine livremente (ex.: LLM local + TTS ElevenLabs, ou OpenAI LLM + TTS local).
Arquitetura Modular
Na pasta Content você encontrará uma pasta Modules que contém três subpastas:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Se você não adquiriu um (ou mais) dos plugins opcionais, simplesmente exclua a(s) pasta(s) correspondente(s). Os assets base do projeto de demonstração (Game Instance, widgets, etc.) não referenciam esses módulos diretamente, portanto excluí-los não causará erros de referência de assets. A interface de configuração ocultará automaticamente qualquer provedor cuja pasta esteja faltando.
Esta modularidade se aplica apenas aos provedores de LLM e TTS. O Speech Recognition (Runtime Speech Recognizer) e o Lip Sync (Runtime MetaHuman Lip Sync) fazem parte do projeto de demonstração base e são sempre necessários.

Na primeira inicialização, o Unreal pode perguntar se deseja desabilitar quaisquer plugins opcionais ausentes - clique em Yes. Certifique-se de também ter excluído a pasta Content/Modules/ correspondente (veja acima).
Layout do Projeto de Demonstração
A interface de usuário mostrada abaixo é construída inteiramente com UMG (Unreal Motion Graphics) e destina-se puramente a demonstrar o pipeline - reconhecimento de fala → LLM → TTS → lip sync. Você está livre para reestilizar ou substituí-la para corresponder ao design visual, esquema de controle ou plataforma do seu jogo (VR/AR, mobile, console, etc.). Se certos widgets não forem necessários no seu caso de uso, você também pode simplesmente ocultá-los (por exemplo, defina sua visibilidade como Collapsed ou Hidden).

| Área | O que há |
|---|---|
| Centro | O personagem MetaHuman. |
| Lado esquerdo | Quatro botões de configuração (Speech Recognition, AI Chatbot, Text To Speech, Animations), descritos em detalhes abaixo. |
| Centro inferior | Um botão Iniciar Gravação. Clique nele para iniciar uma conversa por voz: seu microfone é capturado, transcrito, enviado para o LLM, a resposta é sintetizada via TTS e reproduzida com lip sync, totalmente sem usar as mãos. |
| Centro direito | Um widget de histórico de conversa mostrando toda a conversa entre você e a IA (mensagens do usuário e do assistente). Ele também inclui um campo de entrada de texto, para que você possa digitar mensagens diretamente sem usar reconhecimento de fala, útil para testes, para acessibilidade ou quando um microfone não está disponível. |
Você pode misturar ambos os modos de entrada livremente na mesma sessão - fale algumas mensagens, digite outras.
Botões de Configuração
Os quatro botões de configuração à esquerda abrem painéis dedicados para cada parte do pipeline:
1. Configurar Speech Recognition
Configure como a voz do usuário é capturada e transcrita:
- Selecione o idioma
- Ajuste os parâmetros de reconhecimento de fala (configurações do modelo Whisper)
- Configure AEC (Cancelamento de Eco Acústico)
- Configure VAD (Detecção de Atividade de Voz)

2. Configurar AI Chatbot
Escolha seu provedor de LLM e configure-o:
- Selecione o provedor (Runtime AI Chatbot Integrator ou Runtime Local LLM)
- Para provedores externos: token de autenticação, nome do modelo, etc.
- Para LLM local: selecione um modelo GGUF, defina o tamanho do contexto e outros parâmetros de inferência. Você também pode baixar seu próprio modelo GGUF em tempo de execução diretamente da demonstração (por exemplo, por URL) e usá-lo imediatamente sem reconstruir o projeto.
A combobox de provedores mostra apenas provedores cuja pasta do módulo do plugin está presente em Content/Modules/.


3. Configurar Text To Speech
Escolha seu provedor de TTS e configure vozes/modelos:
- Selecione o provedor (Runtime AI Chatbot Integrator para OpenAI/ElevenLabs, ou Runtime Text To Speech para Piper/Kokoro local)
- Selecione a voz/modelo
- Ajuste os parâmetros específicos do provedor


4. Configurar Animations
Controle os visuais do seu NPC de IA:
- Escolha entre 3 personagens MetaHuman pré-baixados (Aera, Ada, Orlando)
- Selecione o modelo de lip sync (Standard ou Realistic)
- Selecione o tipo de modelo de lip sync - Highly Optimized, Semi-Optimized ou Original (veja Model Type)
- Ajuste Processing Chunk Size - controla a frequência com que a inferência de lip sync é executada (veja Processing Chunk Size)
- Selecione uma animação ociosa para tocar no MetaHuman durante a conversa

Pré-configurando a Demonstração no Editor
Ao trabalhar com a versão fonte, você pode preencher previamente as configurações padrão diretamente no editor para que os valores não precisem ser reinseridos a cada execução:
| O quê | Onde |
|---|---|
| Configurações gerais (modelo de lip sync, animação ociosa, classe de personagem, reconhecimento de fala, etc) | Content/LipSyncSTSGameInstance |
| Configurações de LLM Externo / TTS Externo (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Configurações de LLM Local (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Configurações de TTS Local (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Notas Multiplataforma
Todos os plugins usados pela demonstração suportam Windows, Mac, Linux, iOS, Android e plataformas baseadas em Android (incluindo Meta Quest), portanto o projeto de demonstração funciona em todas elas também.
Para dispositivos mais fracos (mobile, VR standalone), você pode preferir:
- Usar o modelo de lip sync Standard em vez do Realistic - veja a Comparação de modelos
- Mudar para o tipo de modelo Highly Optimized
- Aumentar o Processing Chunk Size para reduzir a carga da CPU
- Escolher modelos menores de LLM / TTS
Veja Configuração Específica da Plataforma para etapas adicionais de configuração no Android, iOS, Mac e Linux.
Trazendo Seu Próprio MetaHuman
O projeto de demonstração vem com três personagens MetaHuman de amostra (Aera, Ada, Orlando), mas você pode importar seu próprio MetaHuman e usá-lo na demonstração.
📺 Vídeo tutorial: Adicionando um Personagem MetaHuman Personalizado ao Projeto de Demonstração
O plugin Runtime MetaHuman Lip Sync em si suporta muitos outros sistemas de personagens além dos MetaHumans (personagens baseados em ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, etc - veja o Guia de Configuração de Personagens Personalizados).
Um projeto de demonstração mais simples que foca puramente no recurso de lip sync em si, sem o fluxo de trabalho conversacional completo de IA. Adequado se você quiser apenas ver o lip sync em ação com várias fontes de áudio.
Vídeo em Destaque
Downloads
O que está incluído
Esta demonstração apresenta os fluxos de trabalho básicos de lip sync:
- Entrada de microfone - lip sync em tempo real a partir de áudio ao vivo
- Reprodução de arquivo de áudio - lip sync a partir de arquivos de áudio importados
- Text-to-Speech - lip sync acionado por fala sintetizada
Plugins Necessários e Opcionais
| Plugin | Propósito | Obrigatório? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animação de lip sync | ✅ Obrigatório |
| Runtime Audio Importer | Importação e captura de áudio | ✅ Obrigatório |
| Runtime Text To Speech | TTS local para a cena de demonstração TTS | 🔶 Opcional |
| Runtime AI Chatbot Integrator | Provedores TTS externos (OpenAI, ElevenLabs) | 🔶 Opcional |
Notas para o Modelo de Lip Sync Standard
Se você planeja usar o Standard Model (em vez do Realistic) em qualquer um dos projetos de demonstração, você precisará instalar o plugin Standard Lip Sync Extension. Veja Extensão do Modelo Standard para instruções de instalação.
Precisa de Ajuda?
Se você encontrar problemas ao configurar ou executar os projetos de demonstração, sinta-se à vontade para entrar em contato:
Para solicitações de desenvolvimento personalizado (por exemplo, estender a demonstração com sua própria lógica, adaptá-la para uma plataforma específica ou pipeline de personagem), entre em contato com solutions@georgy.dev.