मुख्य कंटेंट तक स्किप करें

डेमो प्रोजेक्ट्स

आपको Runtime MetaHuman Lip Sync के साथ शीघ्र आरंभ करने में मदद करने के लिए, दो उपयोग के लिए तैयार डेमो प्रोजेक्ट उपलब्ध हैं। दोनों Unreal Engine 5.6+ पर बने हैं, Blueprint-only हैं, और Windows, Mac, Linux, iOS, Android, तथा Android-आधारित प्लेटफार्मों (जिनमें Meta Quest शामिल है) पर क्रॉस-प्लेटफ़ॉर्म चलते हैं।

उपलब्ध डेमो प्रोजेक्ट्स

एक पूर्ण AI NPC वार्तालाप वर्कफ़्लो जो वाक् पहचान, एक AI चैटबॉट (LLM), पाठ-से-वाक, और वास्तविक समय होंठ सिंक के साथ ऑडियो प्लेबैक को संयोजित करता है - सभी एक ही प्रोजेक्ट में एक साथ चल रहे हैं।

पाइपलाइन अवलोकन

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

वीडियो

त्वरित पूर्वावलोकन (~30 sec)

डेमो की एक छोटी सी प्रस्तुति।

पूर्ण विवरण

सेटअप, कॉन्फ़िगरेशन और पूर्ण संवादी पाइपलाइन का विस्तृत विवरण।

डाउनलोड

आवश्यक और वैकल्पिक प्लगइन्स

डेमो प्रोजेक्ट मॉड्यूलर है – आपको केवल उन्हीं प्लगइन्स की ज़रूरत है जिन प्रदाताओं का आप उपयोग करना चाहते हैं।

प्लगइनउद्देश्यआवश्यक?
Runtime MetaHuman Lip Syncहोंठ मिलान एनीमेशन✅ हमेशा
Runtime Audio Importerऑडियो कैप्चर और प्रोसेसिंग✅ हमेशा
Runtime Speech Recognizerऑफलाइन वाक् पहचान (whisper.cpp)✅ हमेशा
Runtime AI Chatbot Integratorबाहरी LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) और/या बाहरी TTS (OpenAI, ElevenLabs)🔶 वैकल्पिक
Runtime Local LLMलोकल LLM अनुमान llama.cpp के माध्यम से (Llama, Mistral, Gemma, आदि, GGUF मॉडल)🔶 वैकल्पिक
Runtime Text To Speechलोकल TTS Piper और Kokoro के माध्यम से🔶 वैकल्पिक
वैकल्पिक प्लगइन्स - प्रदाता आवश्यकताएं

हालांकि ऊपर सूचीबद्ध प्रत्येक प्लगइन व्यक्तिगत रूप से वैकल्पिक है, डेमो के काम करने के लिए आपको कम से कम एक LLM प्रदाता और कम से कम एक TTS प्रदाता की ज़रूरत होगी। स्वतंत्र रूप से मिक्स और मैच करें (जैसे लोकल LLM + ElevenLabs TTS, या OpenAI LLM + लोकल TTS)।

मॉड्यूलर आर्किटेक्चर

Content फ़ोल्डर में आपको एक Modules फ़ोल्डर मिलेगा जिसमें तीन सबफ़ोल्डर हैं:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

यदि आपने एक (या अधिक) वैकल्पिक प्लगइन प्राप्त नहीं किया है, तो बस संबंधित फ़ोल्डर(s) को हटा दें। डेमो प्रोजेक्ट की आधार संपत्तियां (गेम इंस्टेंस, विजेट्स, आदि) इन मॉड्यूलों का सीधे संदर्भ नहीं लेती हैं, इसलिए उन्हें हटाने से संपत्ति संदर्भ त्रुटियां नहीं होंगी। कॉन्फ़िगरेशन UI स्वचालित रूप से उन प्रदाताओं को छिपाएगा जिनका फ़ोल्डर मौजूद नहीं है।

note

यह मॉड्यूलरिटी केवल LLM और TTS प्रदाताओं पर लागू होती है। Speech Recognition (Runtime Speech Recognizer) और Lip Sync (Runtime MetaHuman Lip Sync) आधार डेमो प्रोजेक्ट का हिस्सा हैं और हमेशा आवश्यक हैं।

मॉड्यूल फ़ोल्डर संरचना

warning

पहली बार लॉन्च करने पर, Unreal पूछ सकता है कि क्या किसी भी अनुपस्थित वैकल्पिक प्लगइन को अक्षम करना है - Yes पर क्लिक करें। सुनिश्चित करें कि आपने संबंधित Content/Modules/ फ़ोल्डर को भी हटा दिया है (ऊपर देखें)।

डेमो प्रोजेक्ट लेआउट

UI केवल प्रदर्शन उद्देश्यों के लिए है

नीचे दिखाया गया यूज़र इंटरफ़ेस पूरी तरह से UMG (Unreal Motion Graphics) से बनाया गया है और इसका उद्देश्य पूरी तरह से पाइपलाइन को प्रदर्शित करना है - speech recognition → LLM → TTS → lip sync. आप अपने गेम के विज़ुअल डिज़ाइन, नियंत्रण योजना, या प्लेटफ़ॉर्म (VR/AR, मोबाइल, कंसोल, आदि) से मेल खाने के लिए इसे पुनः स्टाइल या बदलने के लिए स्वतंत्र हैं। यदि आपके उपयोग के मामले में कुछ विजेट की आवश्यकता नहीं है, तो आप उन्हें आसानी से छिपा भी सकते हैं (जैसे उनकी दृश्यता को Collapsed या Hidden पर सेट करना)।

डेमो प्रोजेक्ट मुख्य स्क्रीन का एनोटेटेड अवलोकन

क्षेत्रक्या है
केंद्रMetaHuman character
बाईं ओरचार कॉन्फ़िगरेशन बटन (Speech Recognition, AI Chatbot, Text To Speech, Animations), जिनका विस्तृत विवरण नीचे दिया गया है।
केंद्र नीचेएक Start Recording बटन। इसे क्लिक करके आवाज़ से बातचीत शुरू करें: आपका माइक्रोफ़ोन कैप्चर किया जाता है, ट्रांसक्राइब किया जाता है, LLM को भेजा जाता है, प्रतिक्रिया TTS के माध्यम से संश्लेषित की जाती है, और lip sync के साथ प्लेबैक किया जाता है, पूरी तरह से हैंड्स-फ़्री।
दाएं केंद्रएक बातचीत इतिहास विजेट जो आपके और AI के बीच पूरी बातचीत दिखाता है (उपयोगकर्ता और सहायक दोनों के संदेश)। इसमें एक टेक्स्ट इनपुट फ़ील्ड भी शामिल है, ताकि आप स्पीच रिकग्निशन का उपयोग किए बिना सीधे संदेश टाइप कर सकें, जो परीक्षण, सुगम्यता, या माइक्रोफ़ोन उपलब्ध न होने पर उपयोगी है।
tip

आप एक ही सत्र में दोनों इनपुट मोड को स्वतंत्र रूप से मिला सकते हैं - कुछ संदेश बोलें, कुछ टाइप करें।

कॉन्फ़िगरेशन बटन

बाईं ओर के चार कॉन्फ़िगरेशन बटन पाइपलाइन के प्रत्येक भाग के लिए समर्पित पैनल खोलते हैं:

1. भाषण पहचान कॉन्फ़िगर करें

कॉन्फ़िगर करें कि उपयोगकर्ता की आवाज़ कैसे कैप्चर और ट्रांसक्राइब की जाती है:

  • भाषा चुनें
  • भाषण पहचान पैरामीटर समायोजित करें (Whisper मॉडल सेटिंग्स)
  • AEC (Acoustic Echo Cancellation) कॉन्फ़िगर करें
  • VAD (Voice Activity Detection) कॉन्फ़िगर करें

भाषण पहचान कॉन्फ़िगरेशन स्क्रीन

2. AI चैटबॉट कॉन्फ़िगर करें

अपना LLM प्रदाता चुनें और उसे कॉन्फ़िगर करें:

  • प्रदाता चुनें (Runtime AI Chatbot Integrator या Runtime Local LLM)
  • बाहरी प्रदाताओं के लिए: auth token, model name, आदि।
  • स्थानीय LLM के लिए: एक GGUF model चुनें, context size, और अन्य inference पैरामीटर सेट करें। आप रनटाइम पर अपना खुद का GGUF model डाउनलोड भी कर सकते हैं सीधे डेमो से (जैसे URL द्वारा), और प्रोजेक्ट को रीबिल्ड किए बिना तुरंत उपयोग कर सकते हैं।
tip

प्रदाता कॉम्बोबॉक्स केवल उन प्रदाताओं को दिखाता है जिनका प्लगइन मॉड्यूल फ़ोल्डर Content/Modules/ में मौजूद है।

AI चैटबॉट कॉन्फ़िगरेशन - Runtime AI Chatbot Integrator (बाहरी LLM)

AI चैटबॉट कॉन्फ़िगरेशन - Runtime Local LLM (स्थानीय GGUF)

3. Text To Speech कॉन्फ़िगर करें

अपना TTS प्रदाता चुनें और आवाज़ें/मॉडल कॉन्फ़िगर करें:

  • प्रदाता चुनें (OpenAI/ElevenLabs के लिए Runtime AI Chatbot Integrator, या स्थानीय Piper/Kokoro के लिए Runtime Text To Speech)
  • आवाज़/मॉडल चुनें
  • प्रदाता-विशिष्ट पैरामीटर समायोजित करें

TTS कॉन्फ़िगरेशन - Runtime AI Chatbot Integrator (बाहरी TTS)

TTS कॉन्फ़िगरेशन - Runtime Local Text To Speech (स्थानीय Piper/Kokoro)

4. एनिमेशन कॉन्फ़िगर करें

अपने AI NPC के विज़ुअल्स को नियंत्रित करें:

  • 3 पूर्व-डाउनलोड किए गए MetaHuman characters (Aera, Ada, Orlando) में से चुनें
  • lip sync model चुनें (Standard या Realistic)
  • lip sync model type चुनें - Highly Optimized, Semi-Optimized, या Original (देखें Model Type)
  • Processing Chunk Size समायोजित करें - यह नियंत्रित करता है कि lip sync inference कितनी बार चलती है (देखें Processing Chunk Size)
  • बातचीत के दौरान MetaHuman पर चलाने के लिए एक idle animation चुनें

एनिमेशन कॉन्फ़िगरेशन स्क्रीन

संपादक में डेमो को पूर्व-कॉन्फ़िगर करना

जब आप source version के साथ काम कर रहे हों, तो आप सीधे संपादक में डिफ़ॉल्ट पूर्व-भर सकते हैं ताकि हर बार मानों को फिर से दर्ज न करना पड़े:

क्याकहाँ
सामान्य सेटिंग्स (lip sync model, idle animation, character class, speech recognition, आदि)Content/LipSyncSTSGameInstance
बाहरी LLM / बाहरी TTS सेटिंग्स (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
स्थानीय LLM सेटिंग्स (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
स्थानीय TTS सेटिंग्स (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

क्रॉस-प्लेटफ़ॉर्म नोट्स

डेमो द्वारा उपयोग किए जाने वाले सभी प्लगइन Windows, Mac, Linux, iOS, Android, और Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित) का समर्थन करते हैं, इसलिए डेमो प्रोजेक्ट इन सभी पर काम करता है।

कमज़ोर उपकरणों (मोबाइल, स्टैंडअलोन VR) के लिए, आप यह कर सकते हैं:

  • Realistic के बजाय Standard lip sync model का उपयोग करें - देखें Model comparison
  • Highly Optimized model type पर स्विच करें
  • CPU लोड कम करने के लिए Processing Chunk Size बढ़ाएँ
  • छोटे LLM / TTS मॉडल चुनें

Android, iOS, Mac, और Linux पर अतिरिक्त सेटअप चरणों के लिए Platform-specific Configuration देखें।

अपना खुद का MetaHuman लाना

डेमो प्रोजेक्ट तीन सैंपल MetaHuman कैरेक्टर (Aera, Ada, Orlando) के साथ आता है, लेकिन आप अपना खुद का MetaHuman इम्पोर्ट कर सकते हैं और उसे डेमो में उपयोग कर सकते हैं।

📺 वीडियो ट्यूटोरियल: डेमो प्रोजेक्ट में एक कस्टम MetaHuman कैरेक्टर जोड़ना

note

Runtime MetaHuman Lip Sync प्लगइन स्वयं MetaHumans के अलावा कई अन्य कैरेक्टर सिस्टम का भी समर्थन करता है (ARKit-आधारित कैरेक्टर, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, आदि - देखें Custom Character Setup Guide).

Standard Lip Sync Model के लिए नोट्स

यदि आप किसी भी डेमो प्रोजेक्ट में Standard Model (Realistic के बजाय) का उपयोग करने की योजना बना रहे हैं, तो आपको Standard Lip Sync Extension plugin इंस्टॉल करना होगा। इंस्टॉलेशन निर्देशों के लिए Standard Model Extension देखें।

सहायता चाहिए?

यदि आपको डेमो प्रोजेक्ट सेट अप करने या चलाने में कोई समस्या आती है, तो बेझिझक संपर्क करें:

Join our Discord
online · support

अनुकूलित विकास अनुरोधों के लिए (उदा. अपने स्वयं के तर्क के साथ डेमो का विस्तार करना, किसी विशिष्ट प्लेटफ़ॉर्म या चरित्र पाइपलाइन के लिए अनुकूलित करना), solutions@georgy.dev पर संपर्क करें।