डेमो प्रोजेक्ट्स

आपको Runtime MetaHuman Lip Sync के साथ शीघ्र आरंभ करने में मदद करने के लिए, दो उपयोग के लिए तैयार डेमो प्रोजेक्ट उपलब्ध हैं। दोनों Unreal Engine 5.6+ पर बने हैं, Blueprint-only हैं, और Windows, Mac, Linux, iOS, Android, तथा Android-आधारित प्लेटफार्मों (जिनमें Meta Quest शामिल है) पर क्रॉस-प्लेटफ़ॉर्म चलते हैं।

उपलब्ध डेमो प्रोजेक्ट्स

AI Conversational NPC
Basic Lip Sync Demo

एक पूर्ण AI NPC वार्तालाप वर्कफ़्लो जो वाक् पहचान, एक AI चैटबॉट (LLM), पाठ-से-वाक, और वास्तविक समय होंठ सिंक के साथ ऑडियो प्लेबैक को संयोजित करता है - सभी एक ही प्रोजेक्ट में एक साथ चल रहे हैं।

पाइपलाइन अवलोकन

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

वीडियो

त्वरित पूर्वावलोकन (~30 sec)

डेमो की एक छोटी सी प्रस्तुति।

पूर्ण विवरण

सेटअप, कॉन्फ़िगरेशन और पूर्ण संवादी पाइपलाइन का विस्तृत विवरण।

डाउनलोड

आवश्यक और वैकल्पिक प्लगइन्स

डेमो प्रोजेक्ट मॉड्यूलर है – आपको केवल उन्हीं प्लगइन्स की ज़रूरत है जिन प्रदाताओं का आप उपयोग करना चाहते हैं।

प्लगइन	उद्देश्य	आवश्यक?
Runtime MetaHuman Lip Sync	होंठ मिलान एनीमेशन	✅ हमेशा
Runtime Audio Importer	ऑडियो कैप्चर और प्रोसेसिंग	✅ हमेशा
Runtime Speech Recognizer	ऑफलाइन वाक् पहचान (whisper.cpp)	✅ हमेशा
Runtime AI Chatbot Integrator	बाहरी LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) और/या बाहरी TTS (OpenAI, ElevenLabs)	🔶 वैकल्पिक
Runtime Local LLM	लोकल LLM अनुमान llama.cpp के माध्यम से (Llama, Mistral, Gemma, आदि, GGUF मॉडल)	🔶 वैकल्पिक
Runtime Text To Speech	लोकल TTS Piper और Kokoro के माध्यम से	🔶 वैकल्पिक

वैकल्पिक प्लगइन्स - प्रदाता आवश्यकताएं

हालांकि ऊपर सूचीबद्ध प्रत्येक प्लगइन व्यक्तिगत रूप से वैकल्पिक है, डेमो के काम करने के लिए आपको कम से कम एक LLM प्रदाता और कम से कम एक TTS प्रदाता की ज़रूरत होगी। स्वतंत्र रूप से मिक्स और मैच करें (जैसे लोकल LLM + ElevenLabs TTS, या OpenAI LLM + लोकल TTS)।

मॉड्यूलर आर्किटेक्चर

Content फ़ोल्डर में आपको एक Modules फ़ोल्डर मिलेगा जिसमें तीन सबफ़ोल्डर हैं:

Content/
└── Modules/
    ├── RuntimeAIChatbotIntegrator/   ← External LLMs and/or external TTS
    ├── RuntimeLocalLLM/              ← Local LLM via llama.cpp
    └── RuntimeTextToSpeech/          ← Local TTS via Piper/Kokoro

यदि आपने एक (या अधिक) वैकल्पिक प्लगइन प्राप्त नहीं किया है, तो बस संबंधित फ़ोल्डर(s) को हटा दें। डेमो प्रोजेक्ट की आधार संपत्तियां (गेम इंस्टेंस, विजेट्स, आदि) इन मॉड्यूलों का सीधे संदर्भ नहीं लेती हैं, इसलिए उन्हें हटाने से संपत्ति संदर्भ त्रुटियां नहीं होंगी। कॉन्फ़िगरेशन UI स्वचालित रूप से उन प्रदाताओं को छिपाएगा जिनका फ़ोल्डर मौजूद नहीं है।

note

यह मॉड्यूलरिटी केवल LLM और TTS प्रदाताओं पर लागू होती है। Speech Recognition (Runtime Speech Recognizer) और Lip Sync (Runtime MetaHuman Lip Sync) आधार डेमो प्रोजेक्ट का हिस्सा हैं और हमेशा आवश्यक हैं।

मॉड्यूल फ़ोल्डर संरचना

warning

पहली बार लॉन्च करने पर, Unreal पूछ सकता है कि क्या किसी भी अनुपस्थित वैकल्पिक प्लगइन को अक्षम करना है - Yes पर क्लिक करें। सुनिश्चित करें कि आपने संबंधित Content/Modules/ फ़ोल्डर को भी हटा दिया है (ऊपर देखें)।

डेमो प्रोजेक्ट लेआउट

UI केवल प्रदर्शन उद्देश्यों के लिए है

नीचे दिखाया गया यूज़र इंटरफ़ेस पूरी तरह से UMG (Unreal Motion Graphics) से बनाया गया है और इसका उद्देश्य पूरी तरह से पाइपलाइन को प्रदर्शित करना है - speech recognition → LLM → TTS → lip sync. आप अपने गेम के विज़ुअल डिज़ाइन, नियंत्रण योजना, या प्लेटफ़ॉर्म (VR/AR, मोबाइल, कंसोल, आदि) से मेल खाने के लिए इसे पुनः स्टाइल या बदलने के लिए स्वतंत्र हैं। यदि आपके उपयोग के मामले में कुछ विजेट की आवश्यकता नहीं है, तो आप उन्हें आसानी से छिपा भी सकते हैं (जैसे उनकी दृश्यता को Collapsed या Hidden पर सेट करना)।

डेमो प्रोजेक्ट मुख्य स्क्रीन का एनोटेटेड अवलोकन

क्षेत्र	क्या है
केंद्र	MetaHuman character।
बाईं ओर	चार कॉन्फ़िगरेशन बटन (Speech Recognition, AI Chatbot, Text To Speech, Animations), जिनका विस्तृत विवरण नीचे दिया गया है।
केंद्र नीचे	एक Start Recording बटन। इसे क्लिक करके आवाज़ से बातचीत शुरू करें: आपका माइक्रोफ़ोन कैप्चर किया जाता है, ट्रांसक्राइब किया जाता है, LLM को भेजा जाता है, प्रतिक्रिया TTS के माध्यम से संश्लेषित की जाती है, और lip sync के साथ प्लेबैक किया जाता है, पूरी तरह से हैंड्स-फ़्री।
दाएं केंद्र	एक बातचीत इतिहास विजेट जो आपके और AI के बीच पूरी बातचीत दिखाता है (उपयोगकर्ता और सहायक दोनों के संदेश)। इसमें एक टेक्स्ट इनपुट फ़ील्ड भी शामिल है, ताकि आप स्पीच रिकग्निशन का उपयोग किए बिना सीधे संदेश टाइप कर सकें, जो परीक्षण, सुगम्यता, या माइक्रोफ़ोन उपलब्ध न होने पर उपयोगी है।

tip

आप एक ही सत्र में दोनों इनपुट मोड को स्वतंत्र रूप से मिला सकते हैं - कुछ संदेश बोलें, कुछ टाइप करें।

कॉन्फ़िगरेशन बटन

बाईं ओर के चार कॉन्फ़िगरेशन बटन पाइपलाइन के प्रत्येक भाग के लिए समर्पित पैनल खोलते हैं:

1. भाषण पहचान कॉन्फ़िगर करें

कॉन्फ़िगर करें कि उपयोगकर्ता की आवाज़ कैसे कैप्चर और ट्रांसक्राइब की जाती है:

भाषा चुनें
भाषण पहचान पैरामीटर समायोजित करें (Whisper मॉडल सेटिंग्स)
AEC (Acoustic Echo Cancellation) कॉन्फ़िगर करें
VAD (Voice Activity Detection) कॉन्फ़िगर करें

भाषण पहचान कॉन्फ़िगरेशन स्क्रीन

2. AI चैटबॉट कॉन्फ़िगर करें

अपना LLM प्रदाता चुनें और उसे कॉन्फ़िगर करें:

प्रदाता चुनें (Runtime AI Chatbot Integrator या Runtime Local LLM)
बाहरी प्रदाताओं के लिए: auth token, model name, आदि।
स्थानीय LLM के लिए: एक GGUF model चुनें, context size, और अन्य inference पैरामीटर सेट करें। आप रनटाइम पर अपना खुद का GGUF model डाउनलोड भी कर सकते हैं सीधे डेमो से (जैसे URL द्वारा), और प्रोजेक्ट को रीबिल्ड किए बिना तुरंत उपयोग कर सकते हैं।

tip

प्रदाता कॉम्बोबॉक्स केवल उन प्रदाताओं को दिखाता है जिनका प्लगइन मॉड्यूल फ़ोल्डर Content/Modules/ में मौजूद है।

AI चैटबॉट कॉन्फ़िगरेशन - Runtime AI Chatbot Integrator (बाहरी LLM)

AI चैटबॉट कॉन्फ़िगरेशन - Runtime Local LLM (स्थानीय GGUF)

3. Text To Speech कॉन्फ़िगर करें

अपना TTS प्रदाता चुनें और आवाज़ें/मॉडल कॉन्फ़िगर करें:

प्रदाता चुनें (OpenAI/ElevenLabs के लिए Runtime AI Chatbot Integrator, या स्थानीय Piper/Kokoro के लिए Runtime Text To Speech)
आवाज़/मॉडल चुनें
प्रदाता-विशिष्ट पैरामीटर समायोजित करें

TTS कॉन्फ़िगरेशन - Runtime AI Chatbot Integrator (बाहरी TTS)

TTS कॉन्फ़िगरेशन - Runtime Local Text To Speech (स्थानीय Piper/Kokoro)

4. एनिमेशन कॉन्फ़िगर करें

अपने AI NPC के विज़ुअल्स को नियंत्रित करें:

3 पूर्व-डाउनलोड किए गए MetaHuman characters (Aera, Ada, Orlando) में से चुनें
lip sync model चुनें (Standard या Realistic)
lip sync model type चुनें - Highly Optimized, Semi-Optimized, या Original (देखें Model Type)
Processing Chunk Size समायोजित करें - यह नियंत्रित करता है कि lip sync inference कितनी बार चलती है (देखें Processing Chunk Size)
बातचीत के दौरान MetaHuman पर चलाने के लिए एक idle animation चुनें

एनिमेशन कॉन्फ़िगरेशन स्क्रीन

संपादक में डेमो को पूर्व-कॉन्फ़िगर करना

जब आप source version के साथ काम कर रहे हों, तो आप सीधे संपादक में डिफ़ॉल्ट पूर्व-भर सकते हैं ताकि हर बार मानों को फिर से दर्ज न करना पड़े:

क्या	कहाँ
सामान्य सेटिंग्स (lip sync model, idle animation, character class, speech recognition, आदि)	`Content/LipSyncSTSGameInstance`
बाहरी LLM / बाहरी TTS सेटिंग्स (Runtime AI Chatbot Integrator)	`Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider`
स्थानीय LLM सेटिंग्स (Runtime Local LLM)	`Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider`
स्थानीय TTS सेटिंग्स (Runtime Text To Speech)	`Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider`

क्रॉस-प्लेटफ़ॉर्म नोट्स

डेमो द्वारा उपयोग किए जाने वाले सभी प्लगइन Windows, Mac, Linux, iOS, Android, और Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित) का समर्थन करते हैं, इसलिए डेमो प्रोजेक्ट इन सभी पर काम करता है।

कमज़ोर उपकरणों (मोबाइल, स्टैंडअलोन VR) के लिए, आप यह कर सकते हैं:

Realistic के बजाय Standard lip sync model का उपयोग करें - देखें Model comparison
Highly Optimized model type पर स्विच करें
CPU लोड कम करने के लिए Processing Chunk Size बढ़ाएँ
छोटे LLM / TTS मॉडल चुनें

Android, iOS, Mac, और Linux पर अतिरिक्त सेटअप चरणों के लिए Platform-specific Configuration देखें।

अपना खुद का MetaHuman लाना

डेमो प्रोजेक्ट तीन सैंपल MetaHuman कैरेक्टर (Aera, Ada, Orlando) के साथ आता है, लेकिन आप अपना खुद का MetaHuman इम्पोर्ट कर सकते हैं और उसे डेमो में उपयोग कर सकते हैं।

📺 वीडियो ट्यूटोरियल: डेमो प्रोजेक्ट में एक कस्टम MetaHuman कैरेक्टर जोड़ना

note

Runtime MetaHuman Lip Sync प्लगइन स्वयं MetaHumans के अलावा कई अन्य कैरेक्टर सिस्टम का भी समर्थन करता है (ARKit-आधारित कैरेक्टर, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, आदि - देखें Custom Character Setup Guide).

एक सरल डेमो प्रोजेक्ट जो पूरी तरह से lip sync सुविधा पर केंद्रित है, बिना पूर्ण AI संवाद वर्कफ़्लो के। उपयुक्त यदि आप केवल विभिन्न ऑडियो स्रोतों के साथ lip sync को कार्रवाई में देखना चाहते हैं।

विशेष वीडियो

डाउनलोड

क्या शामिल है

यह डेमो बुनियादी lip sync वर्कफ़्लो प्रदर्शित करता है:

माइक्रोफ़ोन इनपुट - लाइव ऑडियो से रीयल-टाइम lip sync
ऑडियो फ़ाइल प्लेबैक - आयातित ऑडियो फ़ाइलों से lip sync
Text-to-Speech - संश्लेषित भाषण द्वारा संचालित lip sync

आवश्यक और वैकल्पिक प्लगइन्स

प्लगइन	उद्देश्य	आवश्यक?
Runtime MetaHuman Lip Sync	Lip sync एनिमेशन	✅ आवश्यक
Runtime Audio Importer	ऑडियो आयात और कैप्चर	✅ आवश्यक
Runtime Text To Speech	TTS डेमो सीन के लिए स्थानीय TTS	🔶 वैकल्पिक
Runtime AI Chatbot Integrator	बाहरी TTS प्रदाता (OpenAI, ElevenLabs)	🔶 वैकल्पिक

Standard Lip Sync Model के लिए नोट्स

यदि आप किसी भी डेमो प्रोजेक्ट में Standard Model (Realistic के बजाय) का उपयोग करने की योजना बना रहे हैं, तो आपको Standard Lip Sync Extension plugin इंस्टॉल करना होगा। इंस्टॉलेशन निर्देशों के लिए Standard Model Extension देखें।

सहायता चाहिए?

यदि आपको डेमो प्रोजेक्ट सेट अप करने या चलाने में कोई समस्या आती है, तो बेझिझक संपर्क करें:

Join our Discord

online · support

अनुकूलित विकास अनुरोधों के लिए (उदा. अपने स्वयं के तर्क के साथ डेमो का विस्तार करना, किसी विशिष्ट प्लेटफ़ॉर्म या चरित्र पाइपलाइन के लिए अनुकूलित करना), solutions@georgy.dev पर संपर्क करें।

उपलब्ध डेमो प्रोजेक्ट्स​

पाइपलाइन अवलोकन​

वीडियो​

त्वरित पूर्वावलोकन (~30 sec)​

पूर्ण विवरण​

डाउनलोड​

आवश्यक और वैकल्पिक प्लगइन्स​

मॉड्यूलर आर्किटेक्चर​

डेमो प्रोजेक्ट लेआउट​

कॉन्फ़िगरेशन बटन​

1. भाषण पहचान कॉन्फ़िगर करें​

2. AI चैटबॉट कॉन्फ़िगर करें​

3. Text To Speech कॉन्फ़िगर करें​

4. एनिमेशन कॉन्फ़िगर करें​

संपादक में डेमो को पूर्व-कॉन्फ़िगर करना​

क्रॉस-प्लेटफ़ॉर्म नोट्स​

अपना खुद का MetaHuman लाना​

विशेष वीडियो​

डाउनलोड​

क्या शामिल है​

आवश्यक और वैकल्पिक प्लगइन्स​

Standard Lip Sync Model के लिए नोट्स​

सहायता चाहिए?​

उपलब्ध डेमो प्रोजेक्ट्स

पाइपलाइन अवलोकन

वीडियो

त्वरित पूर्वावलोकन (~30 sec)

पूर्ण विवरण

डाउनलोड

आवश्यक और वैकल्पिक प्लगइन्स

मॉड्यूलर आर्किटेक्चर

डेमो प्रोजेक्ट लेआउट

कॉन्फ़िगरेशन बटन

1. भाषण पहचान कॉन्फ़िगर करें

2. AI चैटबॉट कॉन्फ़िगर करें

3. Text To Speech कॉन्फ़िगर करें

4. एनिमेशन कॉन्फ़िगर करें

संपादक में डेमो को पूर्व-कॉन्फ़िगर करना

क्रॉस-प्लेटफ़ॉर्म नोट्स

अपना खुद का MetaHuman लाना

विशेष वीडियो

डाउनलोड

क्या शामिल है

आवश्यक और वैकल्पिक प्लगइन्स

Standard Lip Sync Model के लिए नोट्स

सहायता चाहिए?