概述

Runtime MetaHuman Lip Sync 是一个插件，可为 MetaHuman 和自定义角色实现实时、离线和跨平台的唇形同步。它允许您根据来自各种来源的音频输入来驱动角色的嘴唇动画，包括：

通过 Runtime Audio Importer 的可捕获声波获取的麦克风输入
来自 Runtime Text To Speech 或 Runtime AI Chatbot Integrator 的合成语音
通过 Runtime Audio Importer 以多种格式流式传输或导入的音频数据
任何浮点 PCM 格式的音频数据（浮点样本数组）

该插件内部根据音频输入生成视位素（音素的视觉表示）。由于它直接处理音频数据而非文本，该插件支持多语言输入，包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语。实际上支持任何语言，因为唇形同步是从音频音素生成的，而非依赖于特定语言的文本处理。

标准模型 产生 14 个视位素，并使用预定义的姿势资产执行唇形同步动画。相比之下，真实感模型（专用于 MetaHuman 角色）生成 81 个面部控制变化，不依赖预定义的姿势资产，从而产生显著更真实的面部动画。

角色兼容性

尽管名为 Runtime MetaHuman Lip Sync，但它适用于远不止 MetaHuman 的广泛角色范围：

流行的商业角色系统

Daz Genesis 8/9 角色
Reallusion Character Creator 3/4 (CC3/CC4) 角色
Mixamo 角色
ReadyPlayerMe 虚拟形象

支持的动画标准

基于 FACS 的混合变形系统
Apple ARKit 混合变形标准
Preston Blair 音素集
3ds Max 音素系统
任何具有用于面部表情的自定义变形目标的角色

有关将插件与非 MetaHuman 角色一起使用的详细说明，请参阅自定义角色设置指南。

动画预览

查看这些简短的动画，了解插件在不同角色类型和模型上产生的唇形同步动画质量：

Realistic Lip Sync Example — *使用MetaHuman角色的逼真模型*

Standard Lip Sync Example — *标准模型与MetaHuman角色*

Custom Character Lip Sync Example — *标准模型与自定义角色*

主要特性

基于麦克风输入的实时口型同步
支持离线音频处理
跨平台兼容性，提供特定于模型的平台支持
支持多种角色系统和动画标准
灵活的自定义角色视位映射
通用语言支持 - 通过音频分析适用于任何口语
情绪感知的面部动画，增强表现力
可配置的输出类型（全脸或仅嘴部控制）

口型同步模型

该插件提供多种口型同步模型，以适应不同的项目需求：

标准模型
真实感模型
情绪感知真实感模型

标准口型同步模型提供高效、跨平台的性能，并具有广泛的角色兼容性：

适用于 MetaHumans 和所有自定义角色类型
针对实时性能优化
资源需求较低
与本地 TTS（Runtime Text To Speech 插件）完全兼容
平台支持：Windows, Android, 基于 Android 的平台（包括 Meta Quest）

需要扩展插件

要使用标准模型，您需要安装一个额外的扩展插件。请参阅先决条件部分获取安装说明。

您可以根据项目在性能、角色兼容性、视觉质量、目标平台和功能需求方面的要求，选择合适的模型。

TTS 兼容性说明

虽然所有模型都支持各种音频输入方法，但常规的真实感模型由于 ONNX 运行时冲突，与本地 TTS 的兼容性有限。然而，情绪感知真实感模型与本地 TTS 完全兼容。对于文本转语音功能：

标准模型：兼容所有 TTS 选项（本地和外部）
真实感模型：推荐使用外部 TTS 服务（OpenAI, ElevenLabs）
情绪感知真实感模型：兼容所有 TTS 选项（本地和外部）

工作原理

该插件按以下方式处理音频输入：

音频数据以浮点 PCM 格式接收，并指定声道数和采样率
插件处理音频以生成面部控制数据或视位，具体取决于模型
对于情绪感知模型，情感上下文会应用于面部动画
动画数据实时驱动角色的面部运动

性能架构

Runtime MetaHuman Lip Sync 使用仅 CPU 推理来提供适用于实时应用的一致、低延迟口型同步结果。默认情况下，插件每10 毫秒执行一次口型同步处理（可调整 - 参见插件配置了解所有可用设置，包括处理块大小、线程数和其他性能参数）。

模型架构概述

口型同步模型使用紧凑的基于 Transformer 的神经网络，通过梅尔频谱图分析处理音频。这种轻量级架构专门为实时性能设计，具有高效的 CPU 推理和最小的内存占用。

为什么使用 CPU 推理？

对于像实时口型同步这样的小型、频繁的推理操作，CPU 处理比 GPU 具有更好的延迟特性。在批处理大小为 1、推理间隔为 10-100 毫秒的情况下，PCIe 传输和内核启动的 GPU 开销通常超过实际计算时间。此外，在游戏引擎中，GPU 已经饱和于渲染、着色器和物理计算，这会产生资源争用，导致不可预测的延迟峰值。

硬件兼容性

该插件在大多数中端及更高端的 CPU 上都能高效运行，无需专用图形硬件，可在桌面、移动和 VR 平台上提供实时性能。对于较弱的硬件，您可以将模型类型调整为半优化或高度优化，或者增加**处理块大小**，以保持实时性能，同时略微降低响应速度。

快速开始

以下是为您的角色启用口型同步的基本设置：

对于 MetaHuman 角色，请遵循设置指南
对于自定义角色，请遵循自定义角色设置指南
选择并配置您偏好的口型同步模型
在您的 Blueprint 中设置音频输入处理
在 Animation Blueprint 中连接相应的口型同步节点
播放音频，观看您的角色带着情感说话！

其他资源

📦 下载与链接

在 Fab 上获取
产品网站
下载演示（Windows）
下载演示源文件（UE 5.6） – 需要此插件 + Runtime Audio Importer，可选：Text To Speech / AI Chatbot。标准模型需要一个小型扩展插件（参见此处）

🎥 视频教程

特色演示：

真实感模型演示 – 增强的准确性

真实感模型（高质量）教程：

标准模型教程：

通用设置：

💬 支持

Discord 支持服务器
定制开发： solutions@georgy.dev（为团队和组织提供量身定制的解决方案）

角色兼容性​

流行的商业角色系统​

支持的动画标准​

动画预览​

主要特性​

口型同步模型​

工作原理​

性能架构​

模型架构概述​

为什么使用 CPU 推理？​

硬件兼容性​

快速开始​

其他资源​

📦 下载与链接​

🎥 视频教程​

特色演示：​

真实感模型（高质量）教程：​

标准模型教程：​

通用设置：​

💬 支持​