Saltar al contenido principal

Proyectos de demostración

Para ayudarte a comenzar rápidamente con Runtime MetaHuman Lip Sync, hay dos proyectos de demostración listos para usar. Ambos están construidos con Unreal Engine 5.6+, son solo Blueprint y se ejecutan multiplataforma en Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluyendo Meta Quest).

Proyectos de demostración disponibles

Un flujo de trabajo completo de NPC conversacional con IA que combina reconocimiento de voz, un chatbot de IA (LLM), texto a voz y reproducción de audio con sincronización labial en tiempo real, todo ejecutándose en un solo proyecto.

Descripción general del pipeline

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Videos

Vista previa rápida (~30 seg)

Una breve muestra de la demo en acción.

Recorrido completo

Un recorrido detallado que cubre la configuración, la instalación y el flujo conversacional completo.

Descargas

Plugins requeridos y opcionales

El proyecto de la demo es modular: solo necesitas los plugins de los proveedores que quieras usar.

PluginPropósito¿Requerido?
Runtime MetaHuman Lip SyncAnimación de sincronización labial✅ Siempre
Runtime Audio ImporterCaptura y procesamiento de audio✅ Siempre
Runtime Speech RecognizerReconocimiento de voz sin conexión (whisper.cpp)✅ Siempre
Runtime AI Chatbot IntegratorLLMs externos (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) y/o TTS externo (OpenAI, ElevenLabs)🔶 Opcional
Runtime Local LLMInferencia LLM local mediante llama.cpp (Llama, Mistral, Gemma, etc., modelos GGUF)🔶 Opcional
Runtime Text To SpeechTTS local mediante Piper y Kokoro🔶 Opcional
Plugins opcionales - requisitos de proveedores

Aunque cada plugin anterior es opcional individualmente, necesitas al menos un proveedor LLM y al menos un proveedor TTS para que la demo funcione. Combínalos libremente (ej. LLM local + TTS de ElevenLabs, o LLM de OpenAI + TTS local).

Arquitectura modular

En la carpeta Content encontrarás una carpeta Modules que contiene tres subcarpetas:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

Si no adquiriste uno (o más) de los complementos opcionales, simplemente elimina la(s) carpeta(s) correspondiente(s). Los activos base del proyecto de demostración (instancia de juego, widgets, etc.) no hacen referencia directa a estos módulos, por lo que eliminarlos no causará errores de referencia de activos. La interfaz de configuración ocultará automáticamente cualquier proveedor cuya carpeta falte.

nota

Esta modularidad se aplica únicamente a los proveedores LLM y TTS. Speech Recognition (Runtime Speech Recognizer) y Lip Sync (Runtime MetaHuman Lip Sync) son parte del proyecto de demostración base y siempre son requeridos.

Estructura de carpetas de módulos

aviso

En el primer inicio, Unreal puede preguntar si desea desactivar los complementos opcionales faltantes: haga clic en Yes. Asegúrese de también haber eliminado la carpeta Content/Modules/ correspondiente (ver arriba).

Diseño del Proyecto de Demostración

La IU es solo para fines de demostración

La interfaz de usuario que se muestra a continuación está construida completamente con UMG (Unreal Motion Graphics) y está destinada únicamente a demostrar el flujo de trabajo: reconocimiento de voz → LLM → TTS → lip sync. Tiene libertad para rediseñarla o reemplazarla para que coincida con el diseño visual de su juego, esquema de control o plataforma (VR/AR, móvil, consola, etc.). Si ciertos widgets no son necesarios en su caso de uso, también puede simplemente ocultarlos (por ejemplo, estableciendo su visibilidad en Collapsed o Hidden).

Resumen anotado de la pantalla principal del proyecto de demostración

ÁreaQué hay
CentroEl personaje MetaHuman.
Lado izquierdoCuatro botones de configuración (Speech Recognition, AI Chatbot, Text To Speech, Animations), descritos en detalle a continuación.
Centro inferiorUn botón Start Recording. Haga clic en él para iniciar una conversación por voz: su micrófono se captura, se transcribe, se envía al LLM, la respuesta se sintetiza mediante TTS y se reproduce con lip sync, completamente manos libres.
Centro derechoUn widget de historial de conversación que muestra todo el intercambio entre usted y la IA (tanto mensajes de usuario como de asistente). También incluye un campo de entrada de texto, para que pueda escribir mensajes directamente sin usar reconocimiento de voz, útil para pruebas, accesibilidad o cuando no hay micrófono disponible.
tip

Puede mezclar ambos modos de entrada libremente en la misma sesión: hablar algunos mensajes, escribir otros.

Botones de configuración

Los cuatro botones de configuración a la izquierda abren paneles dedicados para cada parte del flujo de trabajo:

1. Configurar Speech Recognition

Configure cómo se captura y transcribe la voz del usuario:

  • Seleccionar idioma
  • Ajustar parámetros de reconocimiento de voz (configuraciones del modelo Whisper)
  • Configurar AEC (Cancelación de Eco Acústico)
  • Configurar VAD (Detección de Actividad de Voz)

Pantalla de configuración de reconocimiento de voz

2. Configurar AI Chatbot

Elija su proveedor LLM y configúrelo:

  • Seleccionar proveedor (Runtime AI Chatbot Integrator o Runtime Local LLM)
  • Para proveedores externos: token de autenticación, nombre del modelo, etc.
  • Para LLM local: seleccionar un modelo GGUF, establecer tamaño de contexto y otros parámetros de inferencia. También puede descargar su propio modelo GGUF en tiempo de ejecución directamente desde la demostración (por ejemplo, mediante URL), y usarlo inmediatamente sin reconstruir el proyecto.
tip

El cuadro combinado de proveedor solo muestra los proveedores cuya carpeta de módulo del complemento está presente en Content/Modules/.

Configuración de AI chatbot - Runtime AI Chatbot Integrator (LLM externo)

Configuración de AI chatbot - Runtime Local LLM (GGUF local)

3. Configurar Text To Speech

Elija su proveedor TTS y configure voces/modelos:

  • Seleccionar proveedor (Runtime AI Chatbot Integrator para OpenAI/ElevenLabs, o Runtime Text To Speech para Piper/Kokoro local)
  • Seleccionar voz/modelo
  • Ajustar parámetros específicos del proveedor

Configuración de TTS - Runtime AI Chatbot Integrator (TTS externo)

Configuración de TTS - Runtime Local Text To Speech (Piper/Kokoro local)

4. Configurar Animations

Controle los aspectos visuales de su NPC IA:

  • Elegir entre 3 personajes MetaHuman pre-descargados (Aera, Ada, Orlando)
  • Seleccionar modelo de lip sync (Standard o Realistic)
  • Seleccionar tipo de modelo de lip sync - Highly Optimized, Semi-Optimized, o Original (ver Tipo de Modelo)
  • Ajustar Processing Chunk Size - controla con qué frecuencia se ejecuta la inferencia de lip sync (ver Processing Chunk Size)
  • Seleccionar una animación de reposo para reproducir en el MetaHuman durante la conversación

Pantalla de configuración de animaciones

Preconfigurar la Demostración en el Editor

Al trabajar con la versión fuente, puede precompletar valores predeterminados directamente en el editor para que no tenga que volver a ingresarlos en cada ejecución:

QuéDónde
Configuraciones generales (modelo de lip sync, animación de reposo, clase de personaje, reconocimiento de voz, etc.)Content/LipSyncSTSGameInstance
Configuraciones de LLM externo / TTS externo (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
Configuraciones de LLM local (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
Configuraciones de TTS local (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

Notas Multiplataforma

Todos los complementos utilizados por la demostración son compatibles con Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluido Meta Quest), por lo que el proyecto de demostración también funciona en todos ellos.

Para dispositivos más débiles (móvil, VR independiente), es posible que desee:

  • Usar el modelo de lip sync Standard en lugar de Realistic - vea la comparación de modelos
  • Cambiar al tipo de modelo Highly Optimized
  • Aumentar el Processing Chunk Size para reducir la carga de CPU
  • Elegir modelos LLM / TTS más pequeños

Consulte Configuración específica de plataforma para pasos de configuración adicionales en Android, iOS, Mac y Linux.

Traer su Propio MetaHuman

El proyecto de demostración incluye tres personajes MetaHuman de muestra (Aera, Ada, Orlando), pero puede importar su propio MetaHuman y usarlo en la demostración.

📺 Tutorial en video: Agregar un Personaje MetaHuman Personalizado al Proyecto de Demostración

nota

El complemento Runtime MetaHuman Lip Sync en sí mismo admite muchos otros sistemas de personajes más allá de MetaHumans (personajes basados en ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, etc. - consulte la Guía de Configuración de Personajes Personalizados).

Notas para el Modelo de Lip Sync Standard

Si planea usar el Modelo Standard (en lugar de Realistic) en cualquiera de los proyectos de demostración, deberá instalar el complemento Standard Lip Sync Extension. Consulte Extensión del Modelo Standard para obtener instrucciones de instalación.

¿Necesita Ayuda?

Si encuentra algún problema al configurar o ejecutar los proyectos de demostración, no dude en comunicarse:

Join our Discord
online · support

Para solicitudes de desarrollo personalizadas (p. ej., extender la demostración con tu propia lógica, adaptarla para una plataforma específica o una canalización de personajes), contacta solutions@georgy.dev.