跳到主要内容

概述

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync 是一个插件,可为 MetaHuman 和自定义角色实现实时、离线和跨平台的口型同步。它允许您根据来自多种音频源的输入来驱动角色的唇部动画,包括:

该插件内部基于音频输入生成视位(音素的视觉表现)。由于它直接处理音频数据而非文本,该插件支持多语言输入,包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语。实际上任何语言都受支持,因为口型同步是根据音频音素生成的,而不是依赖于特定语言的文本处理。

Standard Model 生成 14个视位,并使用预定义的姿态资源进行口型同步动画。相比之下,Realistic Models(专为 MetaHuman 和基于 ARKit 的角色设计)无需依赖预定义的姿态资源,即可生成 81个面部控制变化,从而产生更加逼真的面部动画。

角色兼容性

尽管名称如此,Runtime MetaHuman Lip Sync 适用于 MetaHuman 之外的多种角色:

常见商业角色系统

  • Daz Genesis 8/9 角色
  • Reallusion Character Creator 3/4 (CC3/CC4) 角色
  • Mixamo 角色
  • ReadyPlayerMe 虚拟形象

动画标准支持

  • 基于 FACS 的 blendshape 系统
  • Apple ARKit blendshape 标准
  • Preston Blair 音素集
  • 3ds Max 音素系统
  • 任何具有自定义面部表情变形目标的角色

有关将插件用于非 MetaHuman 角色的详细说明,请参阅 自定义角色设置指南

动画预览

观看这些短动画,了解插件在不同角色类型和模型上产生的口型同步动画质量:

逼真的模型与 MetaHuman 角色
标准模型搭配 MetaHuman 角色
带自定义角色的标准模型
带自定义角色的 Standard Model

主要功能

  • 来自麦克风输入的实时口型同步
  • 支持离线音频处理
  • 跨平台兼容性,各模型支持特定平台
  • 支持多种角色系统和动画标准
  • 针对自定义角色的灵活视素映射
  • 通用语言支持 — 通过音频分析适用于任何口语
  • 情绪感知面部动画,增强表现力
  • 可配置的输出类型(全脸或仅嘴部控制)

口型同步模型

该插件提供多种口型同步模型,以满足不同项目需求:

Standard Model 提供高效、跨平台的性能,并具有广泛的角色兼容性:

  • 适用于 MetaHuman 及所有自定义角色类型
  • 针对实时性能进行了优化
  • 较低的资源需求
  • 平台支持:Windows、Android、基于 Android 的平台(包括 Meta Quest)
需要扩展插件

要使用 Standard Model,您需要安装一个额外的扩展插件。请参阅 前提条件部分 了解安装说明。

您可以根据项目的性能、角色兼容性、视觉质量、目标平台和功能需求,选择合适的模型。

工作原理

该插件按以下方式处理音频输入:

  1. 音频数据以 float PCM 格式接收,并具有指定的 通道数采样率
  2. 插件处理音频以生成 面部控制数据视素,具体取决于模型
  3. 对于支持情绪的模型,还会将情绪上下文应用到面部动画中
  4. 动画数据实时驱动角色的面部动作

性能架构

Runtime MetaHuman Lip Sync 仅使用 CPU 推理,以提供适合实时应用的一致、低延迟口型同步结果。默认情况下,插件每 10 毫秒 执行一次口型同步处理(可调整 — 请参阅 插件配置 了解所有可用设置,包括 处理块大小线程数 及其他性能参数)。

模型架构概述

口型同步模型使用基于紧凑 Transformer 的神经网络,通过梅尔频谱分析处理音频。这种轻量级架构专为实时性能而设计,具有高效的 CPU 推理和极低的内存占用。

为什么选择 CPU 推理?

对于像实时口型同步这样的小批量、高频率推理操作,CPU 处理在延迟方面优于 GPU。当批次大小为 1 且推理间隔为 10-100ms 时,GPU 的 PCIe 传输和内核启动开销往往会超过实际计算时间。此外,在游戏引擎中,GPU 已经被渲染、着色器和物理模拟占满,资源竞争会引入不可预测的延迟波动。

硬件兼容性

该插件可在大多数中端及更高配置的 CPU 上高效运行,无需专用图形硬件,可在桌面、移动和 VR 平台上提供实时性能。对于性能较弱的硬件,您可以将 模型类型 调整为 Semi-OptimizedHighly Optimized,或增大 处理块大小,以在略微降低响应速度的前提下保持实时性能。

快速入门

为您的角色启用口型同步的基本设置:

  1. 对于 MetaHuman 角色,请遵循 设置指南
  2. 对于自定义角色,请遵循 自定义角色设置指南
  3. 选择并配置您偏好的口型同步模型
  4. 在 Blueprint 中设置音频输入处理
  5. 在 Animation Blueprint 中连接相应的口型同步节点
  6. 播放音频,即可看到您的角色带情绪地说话!

其他资源

📦 下载和链接

演示项目:

提供两个即用型演示项目 — 请参阅专门的 演示项目 页面,了解完整详情、下载和操作说明:

两个演示项目均支持跨平台(Windows、Mac、Linux、iOS、Android、Meta Quest),并提供打包的可执行文件和完整的 UE 5.6+ 源代码项目。

🎥 视频教程

特色演示:

Realistic Model(高质量)教程:

Standard Model 教程:

通用设置:

💬 支持

Join our Discord
online · support