Descripción general

Runtime MetaHuman Lip Sync es un complemento que permite la sincronización labial en tiempo real, sin conexión y multiplataforma para personajes MetaHuman y personalizados. Te permite animar los labios de un personaje en respuesta a la entrada de audio de varias fuentes, incluyendo:
- Entrada de micrófono a través de la capturable sound wave de Runtime Audio Importer
- Voz sintetizada de Runtime Text To Speech o Runtime AI Chatbot Integrator
- Datos de audio transmitidos o importados en múltiples formatos a través de Runtime Audio Importer
- Cualquier dato de audio en formato PCM de punto flotante (un array de muestras de punto flotante)
El complemento genera internamente visemas (representaciones visuales de fonemas) basados en la entrada de audio. Dado que trabaja directamente con datos de audio en lugar de texto, el complemento admite entrada multilingüe, incluyendo pero no limitándose a inglés, español, francés, alemán, japonés, chino, coreano, ruso, italiano, portugués, árabe e hindi. Literalmente cualquier idioma es soportado ya que la sincronización labial se genera a partir de fonemas de audio en lugar de procesamiento de texto específico del idioma.
El Standard Model produce 14 visemes y realiza la animación de sincronización labial utilizando un asset de pose predefinido. En contraste, los Realistic Models (exclusivos para personajes basados en MetaHuman y ARKit) generan 81 cambios de control facial sin depender de un asset de pose predefinido, lo que resulta en animaciones faciales significativamente más realistas.
Compatibilidad con personajes
A pesar de su nombre, Runtime MetaHuman Lip Sync funciona con una amplia gama de personajes más allá de los MetaHuman:
Sistemas comerciales populares de personajes
- Personajes Daz Genesis 8/9
- Personajes de Reallusion Character Creator 3/4 (CC3/CC4)
- Personajes Mixamo
- Avatares ReadyPlayerMe
Soporte de estándares de animación
- Sistemas de blendshapes basados en FACS
- Estándar de blendshapes de Apple ARKit
- Conjuntos de fonemas de Preston Blair
- Sistemas de fonemas de 3ds Max
- Cualquier personaje con morph targets personalizados para expresiones faciales
Para instrucciones detalladas sobre el uso del complemento con personajes que no sean MetaHuman, consulta la Guía de configuración de personajes personalizados.
Vista previa de la animación
Mira estas cortas animaciones para ver la calidad de la animación de sincronización labial producida por el complemento en diferentes tipos de personajes y modelos:
Características clave
- Sincronización labial en tiempo real desde entrada de micrófono
- Soporte para procesamiento de audio sin conexión
- Compatibilidad multiplataforma con soporte de modelos específico según la plataforma
- Soporte para múltiples sistemas de personajes y estándares de animación
- Mapeo flexible de visemas para personajes personalizados
- Soporte universal de idiomas: funciona con cualquier idioma hablado mediante análisis de audio
- Animación facial con detección de estado de ánimo para mayor expresividad
- Tipos de salida configurables (controles de cara completa o solo boca)
Modelos de sincronización labial
El plugin ofrece varios modelos de sincronización labial para adaptarse a las necesidades de cada proyecto:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
El Standard Model proporciona un rendimiento multiplataforma eficiente con amplia compatibilidad de personajes:
- Funciona con MetaHumans y todo tipo de personajes personalizados
- Optimizado para rendimiento en tiempo real
- Requiere menos recursos
- Soporte de plataforma: Windows, Android, plataformas basadas en Android (incluido Meta Quest)
Para usar el Standard Model, necesitas instalar un plugin de extensión adicional. Consulta la sección de requisitos previos para obtener instrucciones de instalación.
El Realistic Model ofrece una fidelidad visual mejorada específicamente para personajes MetaHuman:
- Compatible con personajes MetaHuman y basados en ARKit con animación facial avanzada (81 controles faciales)
- Mayor calidad visual con movimientos de boca más naturales
- Requisitos de rendimiento ligeramente superiores
- Procesamiento de audio en streaming para aplicaciones en tiempo real
- Ideal para experiencias cinematográficas e interacciones cercanas con personajes
- Tres niveles de optimización: Original, Semi‑optimizado y Altamente optimizado
- Conjuntos de morph targets configurables (consulta Selección de conjuntos de morph targets)
- Soporte de plataforma: Windows, Mac, iOS, Linux, Android, plataformas basadas en Android (incluido Meta Quest)
El Realistic Model viene incluido en el plugin principal y no requiere extensiones adicionales para usarse.
El Mood-Enabled Realistic Model proporciona animación facial que responde a emociones para personajes MetaHuman:
- Compatible con personajes MetaHuman y basados en ARKit con animación facial sensible al estado de ánimo (81 controles faciales)
- 12 tipos de estado de ánimo distintos (Neutral, Feliz, Triste, Seguro, etc.)
- Intensidad de estado de ánimo configurable (de 0.0 a 1.0)
- Tiempo de anticipación ajustable para mejorar la sincronización (de 20 ms a 200 ms)
- Tipos de salida seleccionables: controles de Cara Completa o Solo Boca
- Procesamiento de audio en streaming para aplicaciones en tiempo real
- Conjuntos de morph targets configurables (consulta Selección de conjuntos de morph targets)
- Soporte de plataforma: Windows, Mac, iOS, Linux, Android, plataformas basadas en Android (incluido Meta Quest)
El Mood-Enabled Realistic Model viene incluido en el plugin principal y no requiere extensiones adicionales para usarse.
Puedes elegir el modelo adecuado según los requisitos de tu proyecto en cuanto a rendimiento, compatibilidad de personajes, calidad visual, plataforma objetivo y necesidades de funcionalidades.
Cómo funciona
El plugin procesa la entrada de audio de la siguiente manera:
- Los datos de audio se reciben en formato PCM de tipo float, con un número de canales y una frecuencia de muestreo especificados
- El plugin procesa el audio para generar datos de control facial o visemas, según el modelo
- En los modelos con detección de estado de ánimo, el contexto emocional se aplica a la animación facial
- Los datos de animación controlan los movimientos faciales del personaje en tiempo real
Arquitectura de rendimiento
Runtime MetaHuman Lip Sync utiliza inferencia solo en CPU para ofrecer resultados de sincronización labial consistentes y de baja latencia, adecuados para aplicaciones en tiempo real. De forma predeterminada, el plugin realiza el procesamiento de sincronización labial cada 10 milisegundos (ajustable; consulta Configuración del plugin para conocer todos los ajustes disponibles, incluyendo el tamaño del fragmento de procesamiento, el número de hilos y otros parámetros de rendimiento).
Descripción general de la arquitectura del modelo
Los modelos de sincronización labial utilizan una red neuronal compacta basada en transformers que procesa el audio mediante análisis de mel‑espectrograma. Esta arquitectura ligera está diseñada específicamente para el rendimiento en tiempo real, con inferencia eficiente en CPU y una huella de memoria mínima.
¿Por qué inferencia en CPU?
Para operaciones de inferencia pequeñas y frecuentes como la sincronización labial en tiempo real, el procesamiento en CPU ofrece mejores características de latencia que la GPU. Con un tamaño de lote de 1 e intervalos de inferencia de 10 a 100 ms, la sobrecarga de la GPU debida a transferencias PCIe y lanzamientos de kernels suele superar el tiempo de cómputo real. Además, en los motores de juegos, la GPU ya está saturada con el renderizado, los sombreadores y la física, lo que genera una contención de recursos que introduce picos de latencia impredecibles.
Compatibilidad de hardware
El plugin funciona de forma eficiente en la mayoría de CPUs de gama media y superior sin necesidad de hardware gráfico dedicado, ofreciendo un rendimiento en tiempo real en plataformas de escritorio, móviles y realidad virtual. Para hardware más limitado, puedes ajustar el Tipo de modelo a Semi‑optimizado o Altamente optimizado, o aumentar el tamaño del fragmento de procesamiento para mantener el rendimiento en tiempo real con una capacidad de respuesta ligeramente reducida.
Inicio rápido
Aquí tienes una configuración básica para activar la sincronización labial en tu personaje:
- Para personajes MetaHuman, sigue la Guía de configuración
- Para personajes personalizados, sigue la Guía de configuración de personajes personalizados
- Elige y configura tu modelo de sincronización labial preferido
- Configura el procesamiento de entrada de audio en tu Blueprint
- Conecta el nodo de sincronización labial adecuado en el Animation Blueprint
- Reproduce audio y ve a tu personaje hablar con emoción.
Recursos adicionales
📦 Descargas y enlaces
Proyectos de demostración:
Hay dos proyectos de demostración listos para usar; consulta la página dedicada a Proyectos de demostración para obtener todos los detalles, descargas y tutoriales:
- Full AI Conversational NPC Workflow - reconocimiento de voz + chatbot LLM + TTS + sincronización labial
- Basic Lip Sync Demo - entrada de micrófono, archivos de audio, TTS
Ambas demos son multiplataforma (Windows, Mac, Linux, iOS, Android, Meta Quest) y se distribuyen como compilaciones empaquetadas y proyectos completos de UE 5.6+ con código fuente.
🎥 Tutoriales en vídeo
Demos destacadas:
Tutoriales del Realistic Model (alta calidad):
- Sincronización labial de alta calidad desde archivo/búfer de audio
- Sincronización labial de alta calidad con control de estado de ánimo y TTS local
- Sincronización labial de alta calidad con ElevenLabs y OpenAI TTS
- Sincronización labial en directo de alta calidad con micrófono
Tutoriales del Standard Model:
- Sincronización labial en directo con micrófono (Standard)
- Standard Lip Sync con texto a voz local
- Standard Lip Sync con ElevenLabs y OpenAI TTS
Configuración general:
- Agregar un personaje MetaHuman personalizado al proyecto de demostración
- Vídeo tutorial de configuración
- Recorrido por el proyecto de demostración (antiguo)
💬 Soporte
- Desarrollo personalizado: solutions@georgy.dev (soluciones a medida para equipos y organizaciones)