Visão Geral

Runtime MetaHuman Lip Sync é um plugin que possibilita sincronização labial em tempo real, offline e multiplataforma para personagens MetaHuman e personalizados. Ele permite animar os lábios de um personagem em resposta à entrada de áudio de várias fontes, incluindo:
- Entrada de microfone via Runtime Audio Importer's capturable sound wave
- Fala sintetizada do Runtime Text To Speech ou Runtime AI Chatbot Integrator
- Dados de áudio transmitidos ou importados em vários formatos via Runtime Audio Importer
- Quaisquer dados de áudio no formato float PCM (um array de amostras de ponto flutuante)
O plugin gera internamente visemas (representações visuais de fonemas) com base na entrada de áudio. Como ele trabalha diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue incluindo, mas não se limitando a, inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente qualquer idioma é suportado pois a sincronização labial é gerada a partir de fonemas de áudio, em vez de processamento de texto específico ao idioma.
O Standard Model produz 14 visemas e realiza a animação de sincronização labial usando um asset de pose predefinido. Em contraste, os Realistic Models (exclusivos para personagens baseados em MetaHuman e ARKit) geram 81 alterações de controle facial sem depender de um asset de pose predefinido, resultando em animações faciais significativamente mais realistas.
Compatibilidade com Personagens
Apesar do nome, o Runtime MetaHuman Lip Sync funciona com uma ampla variedade de personagens além dos MetaHumans:
Sistemas de Personagens Comerciais Populares
- Personagens Daz Genesis 8/9
- Personagens Reallusion Character Creator 3/4 (CC3/CC4)
- Personagens Mixamo
- Avatares ReadyPlayerMe
Suporte a Padrões de Animação
- Sistemas de blendshape baseados em FACS
- Padrão de blendshape Apple ARKit
- Conjuntos de fonemas Preston Blair
- Sistemas de fonemas 3ds Max
- Qualquer personagem com morph targets personalizados para expressões faciais
Para instruções detalhadas sobre como usar o plugin com personagens não MetaHuman, consulte o Guia de Configuração de Personagem Personalizado.
Pré-visualização da Animação
Confira estas animações curtas para ver a qualidade da animação de sincronização labial produzida pelo plugin em diferentes tipos de personagens e modelos:
Principais Funcionalidades
- Sincronização labial em tempo real a partir da entrada do microfone
- Suporte a processamento de áudio offline
- Compatibilidade multiplataforma com suporte específico para cada modelo
- Suporte para múltiplos sistemas de personagens e padrões de animação
- Mapeamento flexível de visemas para personagens personalizados
- Suporte universal a idiomas - funciona com qualquer idioma falado por meio de análise de áudio
- Animação facial sensível ao humor para maior expressividade
- Tipos de saída configuráveis (controles de rosto inteiro ou apenas da boca)
Modelos de Lip Sync
O plugin oferece vários modelos de lip sync para atender a diferentes necessidades de projeto:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
O modelo Standard Model oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:
- Funciona com MetaHumans e todos os tipos de personagens personalizados
- Otimizado para performance em tempo real
- Requisitos de recursos mais baixos
- Suporte de Plataforma: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)
Para usar o Standard Model, você precisa instalar um plugin de extensão adicional. Consulte a seção Pré-requisitos para instruções de instalação.
O modelo Realistic oferece fidelidade visual aprimorada especificamente para personagens MetaHuman:
- Compatível com personagens MetaHuman e baseados em ARKit com animação facial avançada (81 controles faciais)
- Maior qualidade visual com movimentos da boca mais naturais
- Requisitos de desempenho ligeiramente superiores
- Processamento de áudio via streaming para aplicações em tempo real
- Ideal para experiências cinematográficas e interações próximas com personagens
- Três níveis de otimização: Original, Semi-Otimizado e Altamente Otimizado
- Conjuntos de morph targets configuráveis (veja Seleção de Conjunto de Morph Targets)
- Suporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas baseadas em Android (incluindo Meta Quest)
O Realistic Model está incluído no plugin principal e não requer nenhuma extensão adicional para uso.
O modelo Mood-Enabled Realistic oferece animação facial sensível à emoção para personagens MetaHuman:
- Compatível com personagens MetaHuman e baseados em ARKit com animação facial responsiva ao humor (81 controles faciais)
- 12 tipos diferentes de humor (Neutro, Feliz, Triste, Confiante, etc.)
- Intensidade de humor configurável (0.0 a 1.0)
- Tempo de antecipação ajustável para melhor sincronização (20ms a 200ms)
- Tipos de saída selecionáveis: controles de Rosto Inteiro ou Apenas Boca
- Processamento de áudio via streaming para aplicações em tempo real
- Conjuntos de morph targets configuráveis (veja Seleção de Conjunto de Morph Targets)
- Suporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas baseadas em Android (incluindo Meta Quest)
O Mood-Enabled Realistic Model está incluído no plugin principal e não requer nenhuma extensão adicional para uso.
Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade com personagens, qualidade visual, plataforma alvo e necessidades de funcionalidades.
Como Funciona
O plugin processa a entrada de áudio da seguinte forma:
- Os dados de áudio são recebidos como formato PCM em ponto flutuante com canais e taxa de amostragem especificados
- O plugin processa o áudio para gerar dados de controle facial ou visemas, dependendo do modelo
- Para modelos com mood, o contexto emocional é aplicado à animação facial
- Os dados de animação acionam os movimentos faciais do personagem em tempo real
Arquitetura de Performance
Runtime MetaHuman Lip Sync usa inferência apenas em CPU para fornecer resultados de lip sync consistentes e de baixa latência adequados para aplicações em tempo real. Por padrão, o plugin realiza o processamento de lip sync a cada 10 milissegundos (ajustável - veja Configuração do Plugin para todas as configurações disponíveis, incluindo Tamanho do Chunk de Processamento, contagem de threads e outros parâmetros de desempenho).
Visão Geral da Arquitetura do Modelo
Os modelos de lip sync usam uma rede neural compacta baseada em transformers que processa o áudio por meio de análise de espectrograma mel. Essa arquitetura leve foi projetada especificamente para desempenho em tempo real com inferência eficiente em CPU e pegada mínima de memória.
Por que Inferência em CPU?
Para operações de inferência pequenas e frequentes, como lip sync em tempo real, o processamento em CPU oferece melhores características de latência do que em GPU. Com batch size 1 e intervalos de inferência de 10-100ms, a sobrecarga da GPU devido a transferências PCIe e lançamento de kernels frequentemente excede o tempo de computação real. Além disso, em motores de jogo, a GPU já está saturada com renderização, shaders e física, criando contenção de recursos que introduz picos imprevisíveis de latência.
Compatibilidade de Hardware
O plugin funciona eficientemente na maioria das CPUs de nível médio ou superior, sem exigir hardware gráfico dedicado, fornecendo desempenho em tempo real em plataformas desktop, móveis e VR. Para hardware mais fraco, você pode ajustar o Tipo de Modelo para Semi-Otimizado ou Altamente Otimizado, ou aumentar o Tamanho do Chunk de Processamento para manter o desempenho em tempo real com uma capacidade de resposta ligeiramente reduzida.
Começo Rápido
Aqui está uma configuração básica para habilitar o lip sync no seu personagem:
- Para personagens MetaHuman, siga o Guia de Configuração
- Para personagens personalizados, siga o Guia de Configuração para Personagens Personalizados
- Escolha e configure seu modelo de lip sync preferido
- Configure o processamento da entrada de áudio em seu Blueprint
- Conecte o nó de lip sync apropriado no Animation Blueprint
- Reproduza o áudio e veja seu personagem falar com emoção!
Recursos Adicionais
📦 Downloads & Links
Projetos de Demonstração:
Dois projetos de demonstração prontos para uso estão disponíveis - veja a página dedicada Projetos de Demonstração para detalhes completos, downloads e tutoriais:
- Fluxo de Trabalho de NPC Conversacional com IA Completo - reconhecimento de fala + chatbot LLM + TTS + lip sync
- Demonstração Básica de Lip Sync - entrada de microfone, arquivos de áudio, TTS
Ambas as demonstrações são multiplataforma (Windows, Mac, Linux, iOS, Android, Meta Quest) e são fornecidas como builds empacotadas e projetos fonte completos para UE 5.6+.
🎥 Tutoriais em Vídeo
Demonstrações em Destaque:
Tutoriais do Realistic Model (Alta Qualidade):
- Lip Sync de Alta Qualidade a partir de Arquivo/Buffer de Áudio
- Lip Sync de Alta Qualidade com Controle de Humor e TTS Local
- Lip Sync de Alta Qualidade com ElevenLabs e OpenAI TTS
- Lip Sync de Alta Qualidade com Microfone ao Vivo
Tutoriais do Standard Model:
- Lip Sync com Microfone ao Vivo (Standard)
- Lip Sync com Text-to-Speech Local (Standard)
- Lip Sync com ElevenLabs e OpenAI TTS (Standard)
Configuração Geral:
- Adicionando um Personagem MetaHuman Personalizado ao Projeto de Demonstração
- Vídeo Tutorial de Configuração
- Passo a passo do projeto de demonstração (mais antigo)
💬 Suporte
- Desenvolvimento Personalizado: solutions@georgy.dev (soluções sob medida para equipes e organizações)