デモプロジェクト
Runtime MetaHuman Lip Sync の利用をすぐに始められるように、すぐに使用可能な2つのデモプロジェクトが用意されています。どちらも Unreal Engine 5.6+ で構築され、Blueprint-only で、Windows、Mac、Linux、iOS、Android、および Android ベースのプラットフォーム(Meta Quest を含む)でクロスプラットフォームで動作します。
利用可能なデモプロジェクト
- AI Conversational NPC
- 基本的なリップシンクデモ
完全なAI NPC会話ワークフロー - 音声認識、AIチャットボット(LLM)、テキスト読み上げ、リアルタイムリップシンク付きオーディオ再生を組み合わせたもので、すべて単一のプロジェクト内で連携して動作します。
パイプライン概要
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
ビデオ
クイックプレビュー(約30秒)
デモの動作を簡潔に紹介します。
完全なウォークスルー
セットアップ、設定、会話パイプライン全体を詳しく説明したウォークスルーです。
ダウンロード
必須 & オプションプラグイン
このデモプロジェクトはモジュラー式で、使用したいプロバイダーに対応するプラグインだけを導入すれば動作します。
| プラグイン | 目的 | 必須? |
|---|---|---|
| Runtime MetaHuman Lip Sync | 口パクアニメーション | ✅ 常に必須 |
| Runtime Audio Importer | オーディオキャプチャと処理 | ✅ 常に必須 |
| Runtime Speech Recognizer | オフライン音声認識(whisper.cpp) | ✅ 常に必須 |
| Runtime AI Chatbot Integrator | 外部LLM(OpenAI、Claude、DeepSeek、Gemini、Grok、Ollama)および/または 外部TTS(OpenAI、ElevenLabs) | 🔶 オプション |
| Runtime Local LLM | ローカルLLM推論 via llama.cpp(Llama、Mistral、Gemma等、GGUFモデル) | 🔶 オプション |
| Runtime Text To Speech | ローカルTTS via PiperとKokoro | 🔶 オプション |
上記の各プラグインは個別にオプションですが、デモを動作させるには少なくとも1つのLLMプロバイダーと少なくとも1つのTTSプロバイダーが必要です。自由に組み合わせてください(例:ローカルLLM + ElevenLabs TTS、またはOpenAI LLM + ローカルTTS)。
モジュラーアーキテクチャ
Contentフォルダ内に、3つのサブフォルダを含む**Modules**フォルダがあります。
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
もし1つ(または複数)のオプションプラグインを入手していない場合、対応するフォルダを削除するだけです。デモプロジェクトのベースアセット(ゲームインスタンス、ウィジェットなど)はこれらのモジュールを直接参照していないため、フォルダを削除してもアセット参照エラーは発生しません。設定UIは、フォルダが存在しないプロバイダーを自動的に非表示にします。
このモジュール性は LLM と TTS プロバイダーにのみ適用されます。Speech Recognition(Runtime Speech Recognizer)と Lip Sync(Runtime MetaHuman Lip Sync)はベースのデモプロジェクトの一部であり、常に必要です。

初回起動時に、Unrealは不足しているオプションプラグインを無効にするか尋ねることがあります - Yes をクリックしてください。対応する Content/Modules/ フォルダも削除されていることを確認してください(上記参照)。
デモプロジェクトのレイアウト
以下に示すユーザーインターフェースは、完全に UMG (Unreal Motion Graphics) で構築されており、パイプラインのデモンストレーション(音声認識 → LLM → TTS → リップシンク)を目的としています。ゲームのビジュアルデザイン、コントロールスキーム、プラットフォーム(VR/AR、モバイル、コンソールなど)に合わせて自由にスタイルを変更または置き換えてください。特定のウィジェットが不要な場合は、非表示にする(例:可視性を Collapsed または Hidden に設定する)こともできます。

| エリア | 内容 |
|---|---|
| 中央 | MetaHumanキャラクター。 |
| 左側 | 4つの設定ボタン(音声認識、AIチャットボット、テキスト読み上げ、アニメーション)。詳細は以下で説明します。 |
| 中央下部 | 録音開始ボタン。クリックすると音声会話が始まります:マイクがキャプチャされ、文字起こしされ、LLMに送信され、応答がTTSで合成され、リップシンク付きで再生されます。完全にハンズフリーです。 |
| 右中央 | 会話履歴ウィジェットで、ユーザーとAI間のやり取り(ユーザーとアシスタントのメッセージ)を表示します。テキスト入力フィールドも含まれており、音声認識を使わずに直接メッセージを入力できます。テストやアクセシビリティ、マイクが利用できない場合に便利です。 |
1つのセッション内で両方の入力モードを自由に切り替えて使用できます - いくつかのメッセージは音声で、他はテキストで入力できます。
設定ボタン
左側の4つの設定ボタンは、パイプラインの各部分の専用パネルを開きます:
1. 音声認識の設定
ユーザーの音声のキャプチャと文字起こし方法を設定します:
- 言語の選択
- 音声認識パラメータの調整(Whisperモデル設定)
- AEC(音響エコーキャンセリング)の設定
- VAD(音声区間検出)の設定

2. AIチャットボットの設定
LLMプロバイダーを選択し設定します:
- プロバイダーの選択(Runtime AI Chatbot Integrator または Runtime Local LLM)
- 外部プロバイダーの場合:認証トークン、モデル名など
- ローカルLLMの場合:GGUFモデルの選択、コンテキストサイズ、その他の推論パラメータの設定。デモから直接ランタイムで自分のGGUFモデルをダウンロード(例:URL経由)して、プロジェクトを再ビルドせずに即座に使用することもできます。
プロバイダーのコンボボックスには、プラグインモジュールフォルダが Content/Modules/ に存在するプロバイダーのみが表示されます。


3. テキスト読み上げの設定
TTSプロバイダーを選択し、音声/モデルを設定します:
- プロバイダーの選択(OpenAI/ElevenLabs用Runtime AI Chatbot Integrator、またはローカルのPiper/Kokoro用Runtime Text To Speech)
- 音声/モデルの選択
- プロバイダー固有のパラメータの調整


4. アニメーションの設定
AI NPCのビジュアルを制御します:
- 3つのプリダウンロード済みMetaHumanキャラクター(Aera、Ada、Orlando)から選択
- リップシンクモデルの選択(Standard または Realistic)
- リップシンクモデルタイプの選択 - Highly Optimized、Semi-Optimized、Original(モデルタイプ を参照)
- Processing Chunk Sizeの調整 - リップシンク推論の実行頻度を制御(Processing Chunk Size を参照)
- 会話中にMetaHumanで再生するアイドルアニメーションの選択

エディタでデモを事前設定する
ソース版で作業する場合、エディタで直接デフォルト値を事前入力できるため、毎回値を再入力する必要がありません:
| 項目 | 場所 |
|---|---|
| 一般設定(リップシンクモデル、アイドルアニメーション、キャラクタークラス、音声認識など) | Content/LipSyncSTSGameInstance |
| 外部LLM / 外部TTS 設定(Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| ローカルLLM 設定(Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| ローカルTTS 設定(Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
クロスプラットフォームに関する注意
デモで使用されるすべてのプラグインは、Windows、Mac、Linux、iOS、Android、およびAndroidベースのプラットフォーム(Meta Questを含む)をサポートしているため、デモプロジェクトもこれらすべてで動作します。
低性能なデバイス(モバイル、スタンドアロンVR)向けには、以下の調整を検討してください:
- Realisticの代わりにStandardリップシンクモデルを使用 - モデルの比較 を参照
- Highly Optimized モデルタイプに切り替え
- Processing Chunk Size を増やしてCPU負荷を軽減
- より小さなLLM / TTSモデルを選択
Android、iOS、Mac、Linuxでの追加のセットアップ手順については、プラットフォーム別設定 を参照してください。
独自のMetaHumanを取り込む
デモプロジェクトには3つのサンプルMetaHumanキャラクター(Aera、Ada、Orlando)が同梱されていますが、独自のMetaHumanをインポートしてデモで使用することもできます。
📺 ビデオチュートリアル: カスタムMetaHumanキャラクターをデモプロジェクトに追加する
Runtime MetaHuman Lip Syncプラグイン自体は、MetaHuman以外にも多くのキャラクターシステム(ARKitベースのキャラクター、Daz Genesis 8/9、Reallusion CC3/CC4、Mixamo、ReadyPlayerMeなど)をサポートしています - カスタムキャラクターセットアップガイド を参照してください。
AI対話ワークフロー全体ではなく、リップシンク機能自体に焦点を当てたシンプルなデモプロジェクトです。様々な音声ソースでのリップシンクの動作を確認したい場合に適しています。
紹介動画
ダウンロード
含まれるもの
このデモでは、基本的なリップシンクワークフローを紹介します:
- マイク入力 - ライブ音声からのリアルタイムリップシンク
- 音声ファイル再生 - インポートした音声ファイルからのリップシンク
- テキスト読み上げ - 合成音声によるリップシンク
必須およびオプションのプラグイン
| プラグイン | 目的 | 必須? |
|---|---|---|
| Runtime MetaHuman Lip Sync | リップシンクアニメーション | ✅ 必須 |
| Runtime Audio Importer | 音声のインポートとキャプチャ | ✅ 必須 |
| Runtime Text To Speech | TTSデモシーン向けのローカルTTS | 🔶 オプション |
| Runtime AI Chatbot Integrator | 外部TTSプロバイダー (OpenAI、ElevenLabs) | 🔶 オプション |
Standardリップシンクモデルに関する注意事項
いずれかのデモプロジェクトで Standard Model(Realisticの代わりに)を使用する予定の場合、Standard Lip Sync Extension プラグインをインストールする必要があります。インストール手順については、Standard Model Extension を参照してください。
サポートが必要ですか?
デモプロジェクトのセットアップや実行で問題が発生した場合は、お気軽にお問い合わせください:
カスタム開発のご依頼(例:デモを独自のロジックで拡張する、特定のプラットフォームやキャラクター制作用パイプラインに適応させるなど)については、solutions@georgy.dev までご連絡ください。