概述

Runtime MetaHuman Lip Sync 是一个插件,可为 MetaHuman 和自定义角色实现实时、离线和跨平台的口型同步。它允许您根据来自多种音频源的输入来驱动角色的唇部动画,包括:
- 麦克风输入,通过 Runtime Audio Importer's capturable sound wave
- 来自 Runtime Text To Speech 或 Runtime AI Chatbot Integrator 的合成语音
- 通过 Runtime Audio Importer 进行流式传输或导入的 多种格式 音频数据
- 任何 float PCM 格式的音频数据(一个浮点采样数组)
该插件内部基于音频输入生成视位(音素的视觉表现)。由于它直接处理音频数据而非文本,该插件支持多语言输入,包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语。实际上任何语言都受支持,因为口型同步是根据音频音素生成的,而不是依赖于特定语言的文本处理。
Standard Model 生成 14个视位,并使用预定义的姿态资源进行口型同步动画。相比之下,Realistic Models(专为 MetaHuman 和基于 ARKit 的角色设计)无需依赖预定义的姿态资源,即可生成 81个面部控制变化,从而产生更加逼真的面部动画。
角色兼容性
尽管名称如此,Runtime MetaHuman Lip Sync 适用于 MetaHuman 之外的多种角色:
常见商业角色系统
- Daz Genesis 8/9 角色
- Reallusion Character Creator 3/4 (CC3/CC4) 角色
- Mixamo 角色
- ReadyPlayerMe 虚拟形象
动画标准支持
- 基于 FACS 的 blendshape 系统
- Apple ARKit blendshape 标准
- Preston Blair 音素集
- 3ds Max 音素系统
- 任何具有自定义面部表情变形目标的角色
有关将插件用于非 MetaHuman 角色的详细说明,请参阅 自定义角色设置指南。
动画预览
观看这些短动画,了解插件在不同角色类型和模型上产生的口型同步动画质量:
主要功能
- 来自麦克风输入的实时口型同步
- 支持离线音频处理
- 跨平台兼容性,各模型支持特定平台
- 支持多种角色系统和动画标准
- 针对自定义角色的灵活视素映射
- 通用语言支持 — 通过音频分析适用于任何口语
- 情绪感知面部动画,增强表现力
- 可配置的输出类型(全脸或仅嘴部控制)
口型同步模型
该插件提供多种口型同步模型,以满足不同项目需求:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Standard Model 提供高效、跨平台的性能,并具有广泛的角色兼容性:
- 适用于 MetaHuman 及所有自定义角色类型
- 针对实时性能进行了优化
- 较低的资源需求
- 平台支持:Windows、Android、基于 Android 的平台(包括 Meta Quest)
要使用 Standard Model,您需要安装一个额外的扩展插件。请参阅 前提条件部分 了解安装说明。
Realistic Model 专为 MetaHuman 角色提供增强的视觉保真度:
- 兼容 MetaHuman 及基于 ARKit 的角色,具有高级面部动画(81 个面部控制)
- 更高的视觉质量,口型动作更自然
- 略高的性能要求
- 流式音频处理,适用于实时应用
- 非常适合电影级体验和近距离角色交互
- 三种优化等级:Original、Semi-Optimized 和 Highly Optimized
- 可配置的 morph target 集合(请参阅 Morph Target 集合选择)
- 平台支持:Windows、Mac、iOS、Linux、Android、基于 Android 的平台(包括 Meta Quest)
Realistic Model 已包含在主插件中,无需任何额外扩展即可使用。
Mood-Enabled Realistic Model 提供针对 MetaHuman 角色的情绪感知面部动画:
- 兼容 MetaHuman 及基于 ARKit 的角色,具有情绪响应式面部动画(81 个面部控制)
- 12 种情绪类型(Neutral、Happy、Sad、Confident 等)
- 可配置的情绪强度(0.0 至 1.0)
- 可调整的前瞻时间以改善同步(20ms 至 200ms)
- 可选择的输出类型:Full Face 或 Mouth Only 控制
- 流式音频处理,适用于实时应用
- 可配置的 morph target 集合(请参阅 Morph Target 集合选择)
- 平台支持:Windows、Mac、iOS、Linux、Android、基于 Android 的平台(包括 Meta Quest)
Mood-Enabled Realistic Model 已包含在主插件中,无需任何额外扩展即可使用。
您可以根据项目的性能、角色兼容性、视觉质量、目标平台和功能需求,选择合适的模型。
工作原理
该插件按以下方式处理音频输入:
- 音频数据以 float PCM 格式接收,并具有指定的 通道数 和 采样率
- 插件处理音频以生成 面部控制数据 或 视素,具体取决于模型
- 对于支持情绪的模型,还会将情绪上下文应用到面部动画中
- 动画数据实时驱动角色的面部动作
性能架构
Runtime MetaHuman Lip Sync 仅使用 CPU 推理,以提供适合实时应用的一致、低延迟口型同步结果。默认情况下,插件每 10 毫秒 执行一次口型同步处理(可调整 — 请参阅 插件配置 了解所有可用设置,包括 处理块大小、线程数 及其他性能参数)。
模型架构概述
口型同步模型使用基于紧凑 Transformer 的神经网络,通过梅尔频谱分析处理音频。这种轻量级架构专为实时性能而设计,具有高效的 CPU 推理和极低的内存占用。
为什么选择 CPU 推理?
对于像实时口型同步这样的小批量、高频率推理操作,CPU 处理在延迟方面优于 GPU。当批次大小为 1 且推理间隔为 10-100ms 时,GPU 的 PCIe 传输和内核启动开销往往会超过实际计算时间。此外,在游戏引擎中,GPU 已经被渲染、着色器和物理模拟占满,资源竞争会引入不可预测的延迟波动。
硬件兼容性
该插件可在大多数中端及更高配置的 CPU 上高效运行,无需专用图形硬件,可在桌面、移动和 VR 平台上提供实时性能。对于性能较弱的硬件,您可以将 模型类型 调整为 Semi-Optimized 或 Highly Optimized,或增大 处理块大小,以在略微降低响应速度的前提下保持实时性能。
快速入门
为您的角色启用口型同步的基本设置:
- 对于 MetaHuman 角色,请遵循 设置指南
- 对于自定义角色,请遵循 自定义角色设置指南
- 选择并配置您偏好的口型同步模型
- 在 Blueprint 中设置音频输入处理
- 在 Animation Blueprint 中连接相应的口型同步节点
- 播放音频,即可看到您的角色带情绪地说话!
其他资源
📦 下载和链接
演示项目:
提供两个即用型演示项目 — 请参阅专门的 演示项目 页面,了解完整详情、下载和操作说明:
- 完整的 AI 对话 NPC 工作流 — 语音识别 + LLM 聊天机器人 + TTS + 口型同步
- 基础口型同步演示 — 麦克风输入、音频文件、TTS
两个演示项目均支持跨平台(Windows、Mac、Linux、iOS、Android、Meta Quest),并提供打包的可执行文件和完整的 UE 5.6+ 源代码项目。
🎥 视频教程
特色演示:
Realistic Model(高质量)教程:
Standard Model 教程:
通用设置:
💬 支持
- 定制开发: solutions@georgy.dev(为团队和组织提供量身定制的解决方案)