Proyectos de demostración
Para ayudarte a comenzar rápidamente con Runtime MetaHuman Lip Sync, hay dos proyectos de demostración listos para usar. Ambos están construidos con Unreal Engine 5.6+, son solo Blueprint y se ejecutan multiplataforma en Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluyendo Meta Quest).
Proyectos de demostración disponibles
- AI Conversational NPC
- Demostración Básica de Lip Sync
Un flujo de trabajo completo de NPC conversacional con IA que combina reconocimiento de voz, un chatbot de IA (LLM), texto a voz y reproducción de audio con sincronización labial en tiempo real, todo ejecutándose en un solo proyecto.
Descripción general del pipeline
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Videos
Vista previa rápida (~30 seg)
Una breve muestra de la demo en acción.
Recorrido completo
Un recorrido detallado que cubre la configuración, la instalación y el flujo conversacional completo.
Descargas
Plugins requeridos y opcionales
El proyecto de la demo es modular: solo necesitas los plugins de los proveedores que quieras usar.
| Plugin | Propósito | ¿Requerido? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animación de sincronización labial | ✅ Siempre |
| Runtime Audio Importer | Captura y procesamiento de audio | ✅ Siempre |
| Runtime Speech Recognizer | Reconocimiento de voz sin conexión (whisper.cpp) | ✅ Siempre |
| Runtime AI Chatbot Integrator | LLMs externos (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) y/o TTS externo (OpenAI, ElevenLabs) | 🔶 Opcional |
| Runtime Local LLM | Inferencia LLM local mediante llama.cpp (Llama, Mistral, Gemma, etc., modelos GGUF) | 🔶 Opcional |
| Runtime Text To Speech | TTS local mediante Piper y Kokoro | 🔶 Opcional |
Aunque cada plugin anterior es opcional individualmente, necesitas al menos un proveedor LLM y al menos un proveedor TTS para que la demo funcione. Combínalos libremente (ej. LLM local + TTS de ElevenLabs, o LLM de OpenAI + TTS local).
Arquitectura modular
En la carpeta Content encontrarás una carpeta Modules que contiene tres subcarpetas:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Si no adquiriste uno (o más) de los complementos opcionales, simplemente elimina la(s) carpeta(s) correspondiente(s). Los activos base del proyecto de demostración (instancia de juego, widgets, etc.) no hacen referencia directa a estos módulos, por lo que eliminarlos no causará errores de referencia de activos. La interfaz de configuración ocultará automáticamente cualquier proveedor cuya carpeta falte.
Esta modularidad se aplica únicamente a los proveedores LLM y TTS. Speech Recognition (Runtime Speech Recognizer) y Lip Sync (Runtime MetaHuman Lip Sync) son parte del proyecto de demostración base y siempre son requeridos.

En el primer inicio, Unreal puede preguntar si desea desactivar los complementos opcionales faltantes: haga clic en Yes. Asegúrese de también haber eliminado la carpeta Content/Modules/ correspondiente (ver arriba).
Diseño del Proyecto de Demostración
La interfaz de usuario que se muestra a continuación está construida completamente con UMG (Unreal Motion Graphics) y está destinada únicamente a demostrar el flujo de trabajo: reconocimiento de voz → LLM → TTS → lip sync. Tiene libertad para rediseñarla o reemplazarla para que coincida con el diseño visual de su juego, esquema de control o plataforma (VR/AR, móvil, consola, etc.). Si ciertos widgets no son necesarios en su caso de uso, también puede simplemente ocultarlos (por ejemplo, estableciendo su visibilidad en Collapsed o Hidden).

| Área | Qué hay |
|---|---|
| Centro | El personaje MetaHuman. |
| Lado izquierdo | Cuatro botones de configuración (Speech Recognition, AI Chatbot, Text To Speech, Animations), descritos en detalle a continuación. |
| Centro inferior | Un botón Start Recording. Haga clic en él para iniciar una conversación por voz: su micrófono se captura, se transcribe, se envía al LLM, la respuesta se sintetiza mediante TTS y se reproduce con lip sync, completamente manos libres. |
| Centro derecho | Un widget de historial de conversación que muestra todo el intercambio entre usted y la IA (tanto mensajes de usuario como de asistente). También incluye un campo de entrada de texto, para que pueda escribir mensajes directamente sin usar reconocimiento de voz, útil para pruebas, accesibilidad o cuando no hay micrófono disponible. |
Puede mezclar ambos modos de entrada libremente en la misma sesión: hablar algunos mensajes, escribir otros.
Botones de configuración
Los cuatro botones de configuración a la izquierda abren paneles dedicados para cada parte del flujo de trabajo:
1. Configurar Speech Recognition
Configure cómo se captura y transcribe la voz del usuario:
- Seleccionar idioma
- Ajustar parámetros de reconocimiento de voz (configuraciones del modelo Whisper)
- Configurar AEC (Cancelación de Eco Acústico)
- Configurar VAD (Detección de Actividad de Voz)

2. Configurar AI Chatbot
Elija su proveedor LLM y configúrelo:
- Seleccionar proveedor (Runtime AI Chatbot Integrator o Runtime Local LLM)
- Para proveedores externos: token de autenticación, nombre del modelo, etc.
- Para LLM local: seleccionar un modelo GGUF, establecer tamaño de contexto y otros parámetros de inferencia. También puede descargar su propio modelo GGUF en tiempo de ejecución directamente desde la demostración (por ejemplo, mediante URL), y usarlo inmediatamente sin reconstruir el proyecto.
El cuadro combinado de proveedor solo muestra los proveedores cuya carpeta de módulo del complemento está presente en Content/Modules/.


3. Configurar Text To Speech
Elija su proveedor TTS y configure voces/modelos:
- Seleccionar proveedor (Runtime AI Chatbot Integrator para OpenAI/ElevenLabs, o Runtime Text To Speech para Piper/Kokoro local)
- Seleccionar voz/modelo
- Ajustar parámetros específicos del proveedor


4. Configurar Animations
Controle los aspectos visuales de su NPC IA:
- Elegir entre 3 personajes MetaHuman pre-descargados (Aera, Ada, Orlando)
- Seleccionar modelo de lip sync (Standard o Realistic)
- Seleccionar tipo de modelo de lip sync - Highly Optimized, Semi-Optimized, o Original (ver Tipo de Modelo)
- Ajustar Processing Chunk Size - controla con qué frecuencia se ejecuta la inferencia de lip sync (ver Processing Chunk Size)
- Seleccionar una animación de reposo para reproducir en el MetaHuman durante la conversación

Preconfigurar la Demostración en el Editor
Al trabajar con la versión fuente, puede precompletar valores predeterminados directamente en el editor para que no tenga que volver a ingresarlos en cada ejecución:
| Qué | Dónde |
|---|---|
| Configuraciones generales (modelo de lip sync, animación de reposo, clase de personaje, reconocimiento de voz, etc.) | Content/LipSyncSTSGameInstance |
| Configuraciones de LLM externo / TTS externo (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Configuraciones de LLM local (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Configuraciones de TTS local (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Notas Multiplataforma
Todos los complementos utilizados por la demostración son compatibles con Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluido Meta Quest), por lo que el proyecto de demostración también funciona en todos ellos.
Para dispositivos más débiles (móvil, VR independiente), es posible que desee:
- Usar el modelo de lip sync Standard en lugar de Realistic - vea la comparación de modelos
- Cambiar al tipo de modelo Highly Optimized
- Aumentar el Processing Chunk Size para reducir la carga de CPU
- Elegir modelos LLM / TTS más pequeños
Consulte Configuración específica de plataforma para pasos de configuración adicionales en Android, iOS, Mac y Linux.
Traer su Propio MetaHuman
El proyecto de demostración incluye tres personajes MetaHuman de muestra (Aera, Ada, Orlando), pero puede importar su propio MetaHuman y usarlo en la demostración.
📺 Tutorial en video: Agregar un Personaje MetaHuman Personalizado al Proyecto de Demostración
El complemento Runtime MetaHuman Lip Sync en sí mismo admite muchos otros sistemas de personajes más allá de MetaHumans (personajes basados en ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, etc. - consulte la Guía de Configuración de Personajes Personalizados).
Un proyecto de demostración más sencillo que se centra puramente en la función lip sync en sí, sin el flujo de trabajo conversacional completo de IA. Adecuado si solo desea ver lip sync en acción con varias fuentes de audio.
Video Destacado
Descargas
Qué Incluye
Esta demostración muestra los flujos de trabajo básicos de lip sync:
- Entrada de micrófono - lip sync en tiempo real desde audio en vivo
- Reproducción de archivo de audio - lip sync desde archivos de audio importados
- Texto a Voz - lip sync impulsado por voz sintetizada
Complementos Requeridos y Opcionales
| Complemento | Propósito | ¿Requerido? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animación de lip sync | ✅ Requerido |
| Runtime Audio Importer | Importación y captura de audio | ✅ Requerido |
| Runtime Text To Speech | TTS local para la escena de demostración de TTS | 🔶 Opcional |
| Runtime AI Chatbot Integrator | Proveedores TTS externos (OpenAI, ElevenLabs) | 🔶 Opcional |
Notas para el Modelo de Lip Sync Standard
Si planea usar el Modelo Standard (en lugar de Realistic) en cualquiera de los proyectos de demostración, deberá instalar el complemento Standard Lip Sync Extension. Consulte Extensión del Modelo Standard para obtener instrucciones de instalación.
¿Necesita Ayuda?
Si encuentra algún problema al configurar o ejecutar los proyectos de demostración, no dude en comunicarse:
Para solicitudes de desarrollo personalizadas (p. ej., extender la demostración con tu propia lógica, adaptarla para una plataforma específica o una canalización de personajes), contacta solutions@georgy.dev.