Pular para o conteúdo principal

Visão Geral

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync é um plugin que possibilita sincronização labial em tempo real, offline e multiplataforma para personagens MetaHuman e personalizados. Ele permite animar os lábios de um personagem em resposta à entrada de áudio de várias fontes, incluindo:

O plugin gera internamente visemas (representações visuais de fonemas) com base na entrada de áudio. Como ele trabalha diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue incluindo, mas não se limitando a, inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente qualquer idioma é suportado pois a sincronização labial é gerada a partir de fonemas de áudio, em vez de processamento de texto específico ao idioma.

O Standard Model produz 14 visemas e realiza a animação de sincronização labial usando um asset de pose predefinido. Em contraste, os Realistic Models (exclusivos para personagens baseados em MetaHuman e ARKit) geram 81 alterações de controle facial sem depender de um asset de pose predefinido, resultando em animações faciais significativamente mais realistas.

Compatibilidade com Personagens

Apesar do nome, o Runtime MetaHuman Lip Sync funciona com uma ampla variedade de personagens além dos MetaHumans:

Sistemas de Personagens Comerciais Populares

  • Personagens Daz Genesis 8/9
  • Personagens Reallusion Character Creator 3/4 (CC3/CC4)
  • Personagens Mixamo
  • Avatares ReadyPlayerMe

Suporte a Padrões de Animação

  • Sistemas de blendshape baseados em FACS
  • Padrão de blendshape Apple ARKit
  • Conjuntos de fonemas Preston Blair
  • Sistemas de fonemas 3ds Max
  • Qualquer personagem com morph targets personalizados para expressões faciais

Para instruções detalhadas sobre como usar o plugin com personagens não MetaHuman, consulte o Guia de Configuração de Personagem Personalizado.

Pré-visualização da Animação

Confira estas animações curtas para ver a qualidade da animação de sincronização labial produzida pelo plugin em diferentes tipos de personagens e modelos:

Modelo realista com personagem MetaHuman
Modelo padrão com personagem MetaHuman
Modelo padrão com personagem personalizado
Modelo Standard Model com personagem personalizado

Principais Funcionalidades

  • Sincronização labial em tempo real a partir da entrada do microfone
  • Suporte a processamento de áudio offline
  • Compatibilidade multiplataforma com suporte específico para cada modelo
  • Suporte para múltiplos sistemas de personagens e padrões de animação
  • Mapeamento flexível de visemas para personagens personalizados
  • Suporte universal a idiomas - funciona com qualquer idioma falado por meio de análise de áudio
  • Animação facial sensível ao humor para maior expressividade
  • Tipos de saída configuráveis (controles de rosto inteiro ou apenas da boca)

Modelos de Lip Sync

O plugin oferece vários modelos de lip sync para atender a diferentes necessidades de projeto:

O modelo Standard Model oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:

  • Funciona com MetaHumans e todos os tipos de personagens personalizados
  • Otimizado para performance em tempo real
  • Requisitos de recursos mais baixos
  • Suporte de Plataforma: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)
Plugin de Extensão Necessário

Para usar o Standard Model, você precisa instalar um plugin de extensão adicional. Consulte a seção Pré-requisitos para instruções de instalação.

Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade com personagens, qualidade visual, plataforma alvo e necessidades de funcionalidades.

Como Funciona

O plugin processa a entrada de áudio da seguinte forma:

  1. Os dados de áudio são recebidos como formato PCM em ponto flutuante com canais e taxa de amostragem especificados
  2. O plugin processa o áudio para gerar dados de controle facial ou visemas, dependendo do modelo
  3. Para modelos com mood, o contexto emocional é aplicado à animação facial
  4. Os dados de animação acionam os movimentos faciais do personagem em tempo real

Arquitetura de Performance

Runtime MetaHuman Lip Sync usa inferência apenas em CPU para fornecer resultados de lip sync consistentes e de baixa latência adequados para aplicações em tempo real. Por padrão, o plugin realiza o processamento de lip sync a cada 10 milissegundos (ajustável - veja Configuração do Plugin para todas as configurações disponíveis, incluindo Tamanho do Chunk de Processamento, contagem de threads e outros parâmetros de desempenho).

Visão Geral da Arquitetura do Modelo

Os modelos de lip sync usam uma rede neural compacta baseada em transformers que processa o áudio por meio de análise de espectrograma mel. Essa arquitetura leve foi projetada especificamente para desempenho em tempo real com inferência eficiente em CPU e pegada mínima de memória.

Por que Inferência em CPU?

Para operações de inferência pequenas e frequentes, como lip sync em tempo real, o processamento em CPU oferece melhores características de latência do que em GPU. Com batch size 1 e intervalos de inferência de 10-100ms, a sobrecarga da GPU devido a transferências PCIe e lançamento de kernels frequentemente excede o tempo de computação real. Além disso, em motores de jogo, a GPU já está saturada com renderização, shaders e física, criando contenção de recursos que introduz picos imprevisíveis de latência.

Compatibilidade de Hardware

O plugin funciona eficientemente na maioria das CPUs de nível médio ou superior, sem exigir hardware gráfico dedicado, fornecendo desempenho em tempo real em plataformas desktop, móveis e VR. Para hardware mais fraco, você pode ajustar o Tipo de Modelo para Semi-Otimizado ou Altamente Otimizado, ou aumentar o Tamanho do Chunk de Processamento para manter o desempenho em tempo real com uma capacidade de resposta ligeiramente reduzida.

Começo Rápido

Aqui está uma configuração básica para habilitar o lip sync no seu personagem:

  1. Para personagens MetaHuman, siga o Guia de Configuração
  2. Para personagens personalizados, siga o Guia de Configuração para Personagens Personalizados
  3. Escolha e configure seu modelo de lip sync preferido
  4. Configure o processamento da entrada de áudio em seu Blueprint
  5. Conecte o nó de lip sync apropriado no Animation Blueprint
  6. Reproduza o áudio e veja seu personagem falar com emoção!

Recursos Adicionais

Projetos de Demonstração:

Dois projetos de demonstração prontos para uso estão disponíveis - veja a página dedicada Projetos de Demonstração para detalhes completos, downloads e tutoriais:

Ambas as demonstrações são multiplataforma (Windows, Mac, Linux, iOS, Android, Meta Quest) e são fornecidas como builds empacotadas e projetos fonte completos para UE 5.6+.

🎥 Tutoriais em Vídeo

Demonstrações em Destaque:

Tutoriais do Realistic Model (Alta Qualidade):

Tutoriais do Standard Model:

Configuração Geral:

💬 Suporte

  • Desenvolvimento Personalizado: solutions@georgy.dev (soluções sob medida para equipes e organizações)
Join our Discord
online · support