Resumen

Runtime MetaHuman Lip Sync es un plugin que permite sincronización de labios en tiempo real, sin conexión y multiplataforma tanto para MetaHuman como para personajes personalizados. Te permite animar los labios de un personaje en respuesta a la entrada de audio de diversas fuentes, incluyendo:

Entrada de micrófono a través de Runtime Audio Importer's onda de sonido capturable
Voz sintetizada desde Runtime Text To Speech o Runtime AI Chatbot Integrator
Datos de audio transmitidos o importados en múltiples formatos a través de Runtime Audio Importer
Cualquier dato de audio en formato PCM flotante (un arreglo de muestras de punto flotante)

El plugin genera internamente visemas (representaciones visuales de fonemas) basándose en la entrada de audio. Dado que funciona directamente con datos de audio en lugar de texto, el plugin admite entrada multilingüe que incluye, entre otros, inglés, español, francés, alemán, japonés, chino, coreano, ruso, italiano, portugués, árabe e hindi. Literalmente, cualquier idioma es compatible, ya que la sincronización de labios se genera a partir de fonemas de audio en lugar de procesamiento de texto específico del idioma.

El Modelo Estándar produce 14 visemas y realiza animación de sincronización labial utilizando un activo de pose predefinido. En contraste, los Modelos Realistas (exclusivos para personajes basados en MetaHuman y ARKit) generan 81 cambios de control facial sin depender de un activo de pose predefinido, lo que resulta en animaciones faciales significativamente más realistas.

Compatibilidad de personajes

A pesar de su nombre, Runtime MetaHuman Lip Sync funciona con una amplia variedad de personajes más allá de solo MetaHumans:

Sistemas de personajes comerciales populares

Personajes Daz Genesis 8/9
Personajes Reallusion Character Creator 3/4 (CC3/CC4)
Personajes Mixamo
Avatares ReadyPlayerMe

Soporte de Estándares de Animación

Sistemas de blendshapes basados en FACS
Estándar de blendshapes de Apple ARKit
Conjuntos de fonemas de Preston Blair
Sistemas de fonemas de 3ds Max
Cualquier personaje con morph targets personalizados para expresiones faciales

Para personajes que no son MetaHuman que usan el Modelo Estándar, consulta la Guía de Configuración de Personajes Personalizados. Para personajes basados en ARKit que usan los Modelos Realistas, consulta Selección del Conjunto de Objetivos de Morfología.

Vista previa de animación

Mira estas animaciones cortas para ver la calidad de la sincronización de labios que produce el plugin en diferentes tipos de personajes y modelos:

Modelo realista con personaje MetaHuman

Modelo estándar con personaje MetaHuman

Modelo estándar con personaje personalizado

Características principales

Sincronización labial en tiempo real desde entrada de micrófono
Soporte para procesamiento de audio sin conexión
Compatibilidad multiplataforma con soporte específico para cada modelo de plataforma
Soporte para múltiples sistemas de personajes y estándares de animación
Mapeo flexible de visemas para personajes personalizados
Soporte de idioma universal: funciona con cualquier idioma hablado mediante análisis de audio
Animación facial consciente del estado de ánimo para una expresividad mejorada
Tipos de salida configurables (controles de rostro completo o solo de boca)
Ayudantes opcionales de animación ocular para parpadeos y seguimiento de mirada

Modelos de sincronización de labios

El plugin ofrece múltiples modelos de sincronización de labios para adaptarse a las diferentes necesidades del proyecto:

Modelo Estándar
Modelo Realista
Modelo Realista con Estado de Ánimo

El modelo estándar de sincronización de labios ofrece un rendimiento eficiente y multiplataforma con una amplia compatibilidad de personajes:

Funciona con MetaHumans y todos los tipos de personajes personalizados
Optimizado para rendimiento en tiempo real
Menores requisitos de recursos
Soporte de plataformas: Windows, Android, plataformas basadas en Android (incluyendo Meta Quest)

Complemento de extensión requerido

Para usar el Modelo Estándar, necesitas instalar un plugin de extensión adicional. Consulta la sección de Requisitos previos para obtener instrucciones de instalación.

Puedes elegir el modelo adecuado según los requisitos de tu proyecto en cuanto a rendimiento, compatibilidad de personajes, calidad visual, plataforma de destino y necesidades de funciones.

Cómo Funciona

El plugin procesa la entrada de audio de la siguiente manera:

Los datos de audio se reciben en formato PCM de punto flotante con canales y frecuencia de muestreo especificados
El plugin procesa el audio para generar datos de control facial o visemas según el modelo
Para modelos con capacidad de estado de ánimo, se aplica contexto emocional a la animación facial
Los datos de animación impulsan los movimientos faciales del personaje en tiempo real

Arquitectura de Rendimiento

Runtime MetaHuman Lip Sync utiliza inferencia solo en CPU para ofrecer resultados de sincronización labial consistentes y de baja latencia, adecuados para aplicaciones en tiempo real. De forma predeterminada, el plugin realiza el procesamiento de sincronización labial cada 10 milisegundos (ajustable; consulte Configuración del Plugin para conocer todas las opciones disponibles, incluido el Tamaño del Fragmento de Procesamiento, el número de hilos y otros parámetros de rendimiento).

Resumen de la Arquitectura del Modelo

Los modelos de sincronización labial utilizan una red neuronal compacta basada en transformadores que procesa el audio mediante análisis de mel-espectrograma. Esta arquitectura ligera está diseñada específicamente para rendimiento en tiempo real con inferencia eficiente en CPU y un consumo mínimo de memoria.

¿Por qué inferencia en CPU?

Para operaciones de inferencia pequeñas y frecuentes, como la sincronización de labios en tiempo real, el procesamiento por CPU ofrece mejores características de latencia que la GPU. Con un tamaño de lote de 1 e intervalos de inferencia de 10 a 100 ms, la sobrecarga de la GPU por transferencias PCIe y lanzamientos de kernel a menudo supera el tiempo real de cómputo. Además, en los motores de juego, la GPU ya está saturada con renderizado, sombreadores y física, lo que genera contención de recursos que introduce picos de latencia impredecibles.

Compatibilidad de Hardware

El plugin funciona de manera eficiente en la mayoría de las CPU de gama media y superior sin requerir hardware gráfico dedicado, ofreciendo rendimiento en tiempo real en plataformas de escritorio, móviles y VR. Para hardware más débil, puedes ajustar el Tipo de Modelo a Semi-Optimizado o Altamente Optimizado, o aumentar el Tamaño del Fragmento de Procesamiento para mantener el rendimiento en tiempo real con una capacidad de respuesta ligeramente reducida.

Inicio rápido

Aquí tienes una configuración básica para habilitar la sincronización de labios en tu personaje:

Para personajes MetaHuman, sigue la Guía de Configuración
Para personajes personalizados, sigue la Guía de Configuración de Personajes Personalizados
Elige y configura tu modelo de sincronización labial preferido
Configura el procesamiento de entrada de audio en tu Blueprint
Conecta el nodo de sincronización labial adecuado en el Animation Blueprint
Reproduce el audio y observa cómo tu personaje se anima en sincronía

Animación ocular opcional

El plugin también incluye ayudantes opcionales para parpadeo automático y seguimiento de mirada en MetaHumans. Estos son independientes de la sincronización de labios y se pueden usar de forma independiente o superpuestos sobre ella. Consulta Ayudantes de Animación Ocular.

Recursos Adicionales

📦 Descargas y Enlaces

Proyectos de demostración:

Hay dos proyectos demo listos para usar disponibles; consulta la página dedicada de Proyectos Demo para obtener todos los detalles, descargas y tutoriales:

Flujo de trabajo completo de NPC conversacional con IA - reconocimiento de voz + chatbot LLM + TTS + sincronización de labios
Demostración básica de sincronización de labios - entrada de micrófono, archivos de audio, TTS

Ambas demostraciones son multiplataforma (Windows, Mac, Linux, iOS, Android, Meta Quest) y se distribuyen como compilaciones empaquetadas y proyectos fuente completos para UE 5.6+.

🎥 Tutoriales en Video

Demostraciones Destacadas:

Tutoriales de Modelo Realista (Alta Calidad):

Tutoriales del modelo estándar:

Configuración General:

💬 Soporte

Desarrollo personalizado: solutions@georgy.dev (soluciones a medida para equipos y organizaciones)

Join our Discord

online · support

Compatibilidad de personajes​

Sistemas de personajes comerciales populares​

Soporte de Estándares de Animación​

Vista previa de animación​

Características principales​

Modelos de sincronización de labios​

Cómo Funciona​

Arquitectura de Rendimiento​

Resumen de la Arquitectura del Modelo​

¿Por qué inferencia en CPU?​

Compatibilidad de Hardware​

Inicio rápido​

Animación ocular opcional​

Recursos Adicionales​

📦 Descargas y Enlaces​

🎥 Tutoriales en Video​

Demostraciones Destacadas:​

Tutoriales de Modelo Realista (Alta Calidad):​

Tutoriales del modelo estándar:​

Configuración General:​

💬 Soporte​