概要

Runtime MetaHuman Lip Syncは、MetaHumanとカスタムキャラクターの両方に対して、リアルタイム、オフライン、クロスプラットフォームのリップシンクを可能にするプラグインです。様々なソースからの音声入力に応じてキャラクターの口唇をアニメーションさせることができます。そのソースには次のようなものがあります:
- Runtime Audio Importerのキャプチャ可能なサウンドウェーブを介したマイク入力
- Runtime Text To SpeechやRuntime AI Chatbot Integratorからの合成音声
- Runtime Audio Importerを介した複数のフォーマットでのストリーミングまたはインポートされた音声データ
- フロートPCM形式(浮動小数点サンプルの配列)の任意の音声データ
プラグインは音声入力に基づいて内部的に視素(音素の視覚的な表現)を生成します。テキストではなく音声データそのものを扱うため、英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語を含む多言語入力をサポートしています。文字通りあらゆる言語がサポートされています。なぜなら、リップシンクは言語固有のテキスト処理ではなく、音声の音素から生成されるからです。
標準モデルは14の視素を生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。これに対し、リアリスティックモデル(MetaHumanおよびARKitベースのキャラクター専用)は、事前定義されたポーズアセットを使わずに81の表情制御の変化を生成し、はるかにリアルな表情アニメーションを実現します。
キャラクターの互換性
その名前にもかかわらず、Runtime MetaHuman Lip SyncはMetaHumanだけでなく、幅広いキャラクターで動作します:
一般的な商用キャラクターシステム
- Daz Genesis 8/9キャラクター
- Reallusion Character Creator 3/4(CC3/CC4)キャラクター
- Mixamoキャラクター
- ReadyPlayerMeアバター
アニメーション標準のサポート
- FACSベースのブレンドシェイプシステム
- Apple ARKitブレンドシェイプ標準
- Preston Blair音素セット
- 3ds Max音素システム
- 表情用のカスタムモーフターゲットを持つあらゆるキャラクター
非MetaHumanキャラクターでのプラグインの使用方法の詳細については、カスタムキャラクター設定ガイドをご覧ください。
アニメーションプレビュー
これらの短いアニメーションを見て、異なるキャラクタータイプとモデルにわたるプラグインのリップシンクアニメーションの品質をご確認ください:
主な機能
- マイク入力からのリアルタイムリップシンク
- オフライン音声処理のサポート
- モデル固有のプラットフォームサポートによるクロスプラットフォーム対応
- 複数のキャラクターシステムとアニメーション規格への対応
- カスタムキャラクター向けの柔軟なビジームマッピング
- ユニバーサル言語対応 - 音声分析により、あらゆる音声言語で動作
- 表現力を高めるムード認識フェイシャルアニメーション
- 設定可能な出力タイプ(フルフェイスまたは口のみの制御)
リップシンクモデル
The plugin offers multiple lip sync models to suit different project needs:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
標準リップシンクモデルは、幅広いキャラクター互換性と効率的なクロスプラットフォーム性能を提供します:
- MetaHuman とすべてのカスタムキャラクタータイプに対応
- リアルタイム性能に最適化
- 低いリソース要件
- プラットフォームサポート: Windows、Android、Androidベースのプラットフォーム(Meta Questを含む)
Standard Model を使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については、前提条件セクション を参照してください。
リアルなリップシンクモデルは、特にMetaHumanキャラクター向けに強化されたビジュアル忠実度を提供します:
- 高度なフェイシャルアニメーション(81の顔制御)を備えたMetaHumanおよびARKitベースのキャラクターに対応
- より自然な口の動きによる高いビジュアル品質
- 若干高いパフォーマンス要件
- リアルタイムアプリケーションのためのストリーミング音声処理
- シネマティック体験やクローズアップのキャラクターインタラクションに最適
- 3つの最適化レベル: Original、Semi-Optimized、Highly Optimized
- 設定可能なモーフターゲットセット(モーフターゲットセットの選択を参照)
- プラットフォームサポート: Windows、Mac、iOS、Linux、Android、Androidベースのプラットフォーム(Meta Questを含む)
Realistic Model はメインプラグインに含まれており、使用するために追加の拡張プラグインは不要です。
ムード対応のリアルリップシンクモデルは、MetaHumanキャラクター向けに感情を認識するフェイシャルアニメーションを提供します:
- ムードに反応するフェイシャルアニメーション(81の顔制御)を備えたMetaHumanおよびARKitベースのキャラクターに対応
- 12種類のムードタイプ(Neutral、Happy、Sad、Confidentなど)
- 設定可能なムード強度(0.0〜1.0)
- 同期を改善するための調整可能な先読みタイミング(20ms〜200ms)
- 選択可能な出力タイプ:フルフェイスまたは口のみの制御
- リアルタイムアプリケーション向けのストリーミング音声処理
- 設定可能なモーフターゲットセット(モーフターゲットセットの選択を参照)
- プラットフォームサポート: Windows、Mac、iOS、Linux、Android、Androidベースのプラットフォーム(Meta Questを含む)
Mood-Enabled Realistic Model はメインプラグインに含まれており、使用するために追加の拡張プラグインは不要です。
パフォーマンス、キャラクター互換性、ビジュアル品質、ターゲットプラットフォーム、機能要件に基づいて適切なモデルを選択できます。
動作の仕組み
- オーディオデータは、指定されたチャンネル数とサンプルレートでfloat型のPCM形式として受信されます
- プラグインはオーディオを処理し、モデルに応じて顔制御データまたはビジームを生成します
- ムード対応モデルの場合、感情的なコンテキストがフェイシャルアニメーションに適用されます
- アニメーションデータがキャラクターのフェイシャルモーションをリアルタイムに駆動します
パフォーマンスアーキテクチャ
Runtime MetaHuman Lip Sync は、リアルタイムアプリケーションに適した、一貫性のある低遅延のリップシンク結果を提供するために、CPUのみの推論を使用します。デフォルトでは、プラグインは10ミリ秒ごとにリップシンク処理を実行します(調整可能 - 利用可能なすべての設定については、プラグイン設定で処理チャンクサイズ、スレッド数、およびその他のパフォーマンスパラメータを参照してください)。
モデルアーキテクチャの概要
リップシンクモデルは、メルスペクトログラム解析を介して音声を処理するコンパクトなトランスフォーマーベースのニューラルネットワークを使用します。この軽量アーキテクチャは、効率的なCPU推論と最小限のメモリ使用量で、リアルタイム性能に特化して設計されています。
CPU推論の理由
リアルタイムリップシンクのような小規模で頻繁な推論操作では、CPU処理の方がGPUよりもレイテンシ特性に優れています。バッチサイズ1で10〜100ミリ秒の推論間隔では、PCIe転送やカーネル起動によるGPUのオーバーヘッドが実際の計算時間を上回ることがよくあります。さらに、ゲームエンジンでは、GPUはレンダリング、シェーダー、物理演算ですでに飽和しており、予測不能なレイテンシスパイクを引き起こすリソース競合が発生します。
ハードウェア互換性
このプラグインは、専用のグラフィックスハードウェアを必要とせず、ほとんどのミッドティア以上のCPUで効率的に動作し、デスクトップ、モバイル、VRプラットフォームでリアルタイムパフォーマンスを提供します。性能の低いハードウェアでは、モデルタイプをSemi-OptimizedまたはHighly Optimizedに調整するか、反応性は若干低下しますが、**処理チャンクサイズ**を大きくしてリアルタイムパフォーマンスを維持できます。
クイックスタート
- MetaHumanキャラクターの場合は、セットアップガイドに従ってください
- カスタムキャラクターの場合は、カスタムキャラクターセットアップガイドに従ってください
- 好みのリップシンクモデルを選択して設定します
- Blueprintでオーディオ入力処理を設定します
- Animation Blueprintで適切なリップシンクノードを接続します
- オーディオを再生して、キャラクターが感情豊かに話すのを見ましょう!
その他のリソース
📦 ダウンロードとリンク
デモプロジェクト:
すぐに使える2つのデモプロジェクトが利用可能です。詳細、ダウンロード、ウォークスルーについては、専用のデモプロジェクトページをご覧ください:
- 完全なAI対話型NPCワークフロー - 音声認識 + LLMチャットボット + TTS + リップシンク
- ベーシックリップシンクデモ - マイク入力、オーディオファイル、TTS
どちらのデモもクロスプラットフォーム(Windows、Mac、Linux、iOS、Android、Meta Quest)で、パッケージビルドと完全なUE 5.6+ソースプロジェクトとして提供されます。
🎥 ビデオチュートリアル
注目のデモ:
Realistic Model(高品質)チュートリアル:
- オーディオファイル/バッファからの高品質リップシンク
- ムード制御とローカルTTSによる高品質リップシンク
- ElevenLabs & OpenAI TTSによる高品質リップシンク
- 高品質ライブマイクリップシンク
Standard Model チュートリアル:
一般的なセットアップ:
💬 サポート
- カスタム開発: solutions@georgy.dev(チームや組織向けのカスタマイズソリューション)