Visão Geral

Runtime MetaHuman Lip Sync é um plugin que possibilita sincronização labial em tempo real, offline e multiplataforma para personagens MetaHuman e personalizados. Ele permite animar os lábios de um personagem em resposta a entrada de áudio de diversas fontes, incluindo:

Entrada de microfone via Runtime Audio Importer's onda sonora capturável
Fala sintetizada a partir de Runtime Text To Speech ou Runtime AI Chatbot Integrator
Dados de áudio transmitidos ou importados em vários formatos via Runtime Audio Importer
Quaisquer dados de áudio no formato PCM de ponto flutuante (um array de amostras de ponto flutuante)

O plugin gera internamente visemas (representações visuais de fonemas) com base na entrada de áudio. Como funciona diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue, incluindo, mas não se limitando a inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente qualquer idioma é suportado, pois a sincronização labial é gerada a partir de fonemas de áudio, em vez de processamento de texto específico do idioma.

O Modelo Padrão produz 14 visemas e realiza animação de sincronia labial usando um ativo de pose predefinido. Em contraste, os Modelos Realistas (exclusivos para personagens baseados em MetaHuman e ARKit) geram 81 alterações de controle facial sem depender de um ativo de pose predefinido, resultando em animações faciais significativamente mais realistas.

Compatibilidade de Personagens

Apesar do nome, Runtime MetaHuman Lip Sync funciona com uma ampla variedade de personagens, não apenas MetaHumans:

Sistemas Comerciais Populares de Personagens

Personagens Daz Genesis 8/9
Personagens Reallusion Character Creator 3/4 (CC3/CC4)
Personagens Mixamo
Avatares ReadyPlayerMe

Suporte a Padrões de Animação

Sistemas de blendshapes baseados em FACS
Padrão de blendshapes do Apple ARKit
Conjuntos de fonemas de Preston Blair
Sistemas de fonemas do 3ds Max
Qualquer personagem com morph targets personalizados para expressões faciais

Para personagens não-MetaHuman que usam o Modelo Padrão, consulte o Guia de Configuração de Personagem Personalizado. Para personagens baseados em ARKit que usam os Modelos Realistas, consulte Seleção de Conjunto de Alvos de Morph.

Pré-visualização de Animação

Confira estas animações curtas para ver a qualidade da animação de sincronia labial produzida pelo plugin em diferentes tipos de personagens e modelos:

Modelo realista com personagem MetaHuman

Modelo padrão com personagem MetaHuman

Modelo padrão com personagem personalizado

Recursos Principais

Sincronização labial em tempo real a partir de entrada de microfone
Suporte para processamento de áudio offline
Compatibilidade entre plataformas com suporte específico para cada modelo
Suporte para múltiplos sistemas de personagens e padrões de animação
Mapeamento flexível de visemas para personagens personalizados
Suporte universal a idiomas – funciona com qualquer idioma falado por meio de análise de áudio
Animação facial sensível ao humor para maior expressividade
Tipos de saída configuráveis (controles de rosto completo ou apenas boca)
Auxiliares opcionais de animação dos olhos para piscadas e rastreamento do olhar

Modelos de Sincronização Labial

O plugin oferece vários modelos de sincronização labial para atender às diferentes necessidades do projeto:

Modelo Padrão
Modelo Realista
Modelo Realista com Suporte a Humor

O modelo padrão de sincronização labial oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:

Funciona com MetaHumans e todos os tipos de personagens personalizados
Otimizado para desempenho em tempo real
Menores requisitos de recursos
Suporte a plataformas: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)

Plugin de Extensão Necessário

Para usar o Modelo Padrão, você precisa instalar um plugin de extensão adicional. Consulte a seção de Pré-requisitos para instruções de instalação.

Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade de personagens, qualidade visual, plataforma alvo e necessidades de recursos.

Como Funciona

O plugin processa a entrada de áudio da seguinte forma:

Os dados de áudio são recebidos no formato PCM como float, com canais e taxa de amostragem especificados
O plugin processa o áudio para gerar dados de controle facial ou visemas, dependendo do modelo
Para modelos com suporte a humor, o contexto emocional é aplicado à animação facial
Os dados de animação controlam os movimentos faciais do personagem em tempo real

Arquitetura de Desempenho

O Runtime MetaHuman Lip Sync utiliza inferência apenas em CPU para fornecer resultados de sincronização labial consistentes e de baixa latência, adequados para aplicações em tempo real. Por padrão, o plugin realiza o processamento de sincronização labial a cada 10 milissegundos (ajustável — consulte Configuração do Plugin para todas as configurações disponíveis, incluindo Tamanho do Bloco de Processamento, número de threads e outros parâmetros de desempenho).

Visão Geral da Arquitetura do Modelo

Os modelos de sincronização labial utilizam uma rede neural compacta baseada em transformadores que processa o áudio por meio da análise de mel-espectrograma. Essa arquitetura leve é especificamente projetada para desempenho em tempo real, com inferência eficiente em CPU e pegada mínima de memória.

Por que Inferência na CPU?

Para operações de inferência pequenas e frequentes, como sincronização labial em tempo real, o processamento via CPU oferece melhores características de latência do que a GPU. Com tamanho de lote 1 e intervalos de inferência de 10 a 100 ms, a sobrecarga da GPU proveniente de transferências PCIe e inicializações de kernel frequentemente excede o tempo real de computação. Além disso, em mecanismos de jogo, a GPU já está saturada com renderização, shaders e física, criando contenção de recursos que introduz picos de latência imprevisíveis.

Compatibilidade de Hardware

O plugin funciona de forma eficiente na maioria das CPUs de médio e alto desempenho, sem exigir hardware gráfico dedicado, oferecendo desempenho em tempo real em plataformas desktop, móveis e VR. Para hardwares mais fracos, você pode ajustar o Tipo de Modelo para Semi-Otimizado ou Altamente Otimizado, ou aumentar o Tamanho do Bloco de Processamento para manter o desempenho em tempo real com uma capacidade de resposta ligeiramente reduzida.

Início Rápido

Aqui está uma configuração básica para habilitar a sincronização labial no seu personagem:

Para personagens MetaHuman, siga o Guia de Configuração
Para personagens personalizados, siga o Guia de Configuração de Personagens Personalizados
Escolha e configure seu modelo de sincronização labial preferido
Configure o processamento de entrada de áudio no seu Blueprint
Conecte o nó de sincronização labial apropriado no Animation Blueprint
Reproduza o áudio e veja seu personagem animar em sincronia

Animação Opcional dos Olhos

O plugin também inclui auxiliares opcionais para piscar automático e rastreamento de olhar em MetaHumans. Eles são independentes da sincronização labial e podem ser usados de forma autônoma ou sobrepostos a ela. Consulte Auxiliares de Animação dos Olhos.

Recursos Adicionais

📦 Downloads e Links

Projetos de Demonstração:

Dois projetos de demonstração prontos para uso estão disponíveis - consulte a página dedicada Projetos de Demonstração para obter detalhes completos, downloads e tutoriais:

Fluxo de Trabalho Completo de NPCs com IA Conversacional - reconhecimento de fala + chatbot LLM + TTS + sincronização labial
Demonstração Básica de Sincronização Labial - entrada de microfone, arquivos de áudio, TTS

Ambos os demos são multiplataforma (Windows, Mac, Linux, iOS, Android, Meta Quest) e são fornecidos como builds empacotados e projetos fonte completos para UE 5.6+.

🎥 Tutoriais em Vídeo

Demonstrações em Destaque:

Tutoriais de Modelo Realista (Alta Qualidade):

Tutoriais de Modelo Padrão:

Configuração Geral:

💬 Suporte

Desenvolvimento Personalizado: solutions@georgy.dev (soluções sob medida para equipes e organizações)

Join our Discord

online · support

Compatibilidade de Personagens​

Sistemas Comerciais Populares de Personagens​

Suporte a Padrões de Animação​

Pré-visualização de Animação​

Recursos Principais​

Modelos de Sincronização Labial​

Como Funciona​

Arquitetura de Desempenho​

Visão Geral da Arquitetura do Modelo​

Por que Inferência na CPU?​

Compatibilidade de Hardware​

Início Rápido​

Animação Opcional dos Olhos​

Recursos Adicionais​

📦 Downloads e Links​

🎥 Tutoriais em Vídeo​

Demonstrações em Destaque:​

Tutoriais de Modelo Realista (Alta Qualidade):​

Tutoriais de Modelo Padrão:​

Configuração Geral:​

💬 Suporte​