अवलोकन

Runtime MetaHuman Lip Sync एक प्लगइन है जो MetaHuman और कस्टम कैरेक्टर दोनों के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिनमें शामिल हैं:
- माइक्रोफ़ोन इनपुट Runtime Audio Importer's capturable sound wave के माध्यम से
- Runtime Text To Speech या Runtime AI Chatbot Integrator से संश्लेषित भाषण
- Runtime Audio Importer के माध्यम से multiple formats में स्ट्रीम किया गया या आयातित ऑडियो डेटा
- फ़्लोट PCM प्रारूप में कोई भी ऑडियो डेटा (फ़्लोटिंग-पॉइंट सैंपल्स की एक सरणी)
प्लगइन ऑडियो इनपुट के आधार पर आंतरिक रूप से विसिमे (स्वनिम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूँकि यह टेक्स्ट के बजाय सीधे ऑडियो डेटा के साथ काम करता है, प्लगइन बहुभाषी इनपुट का समर्थन करता है, जिसमें अंग्रेज़ी, स्पैनिश, फ़्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इटैलियन, पुर्तगाली, अरबी और हिंदी शामिल हैं लेकिन इन्हीं तक सीमित नहीं हैं। वस्तुतः किसी भी भाषा का समर्थन है क्योंकि लिप सिंक भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग के बजाय ऑडियो स्वनिम से उत्पन्न होता है।
Standard Model 14 विसिमे उत्पन्न करता है और पूर्वनिर्धारित pose asset का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, Realistic Models (विशेष रूप से MetaHuman और ARKit-आधारित पात्रों के लिए) पूर्वनिर्धारित pose asset पर निर्भर किए बिना 81 facial control changes उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती हैं।
कैरेक्टर संगतता
अपने नाम के बावजूद, Runtime MetaHuman Lip Sync केवल MetaHuman ही नहीं, बल्कि कई अन्य प्रकार के पात्रों के साथ भी काम करता है:
लोकप्रिय व्यावसायिक कैरेक्टर सिस्टम
- Daz Genesis 8/9 पात्र
- Reallusion Character Creator 3/4 (CC3/CC4) पात्र
- Mixamo पात्र
- ReadyPlayerMe अवतार
एनीमेशन मानक समर्थन
- FACS-आधारित ब्लेंडशेप सिस्टम
- Apple ARKit ब्लेंडशेप मानक
- Preston Blair स्वनिम सेट
- 3ds Max स्वनिम सिस्टम
- चेहरे के भावों के लिए कस्टम मॉर्फ टारगेट वाला कोई भी पात्र
गैर-MetaHuman पात्रों के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।
एनीमेशन पूर्वावलोकन
विभिन्न पात्र प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटे एनिमेशन को देखें:
प्रमुख विशेषताएँ
- माइक्रोफ़ोन इनपुट से रीयल-टाइम lip sync
- ऑफ़लाइन ऑडियो प्रोसेसिंग समर्थन
- मॉडल-विशिष्ट प्लेटफ़ॉर्म समर्थन के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
- एकाधिक कैरेक्टर सिस्टम और एनिमेशन मानकों का समर्थन
- कस्टम कैरेक्टर के लिए लचीला viseme मैपिंग
- यूनिवर्सल भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
- अभिव्यक्ति को बेहतर बनाने के लिए मूड-अवेयर चेहरे की एनिमेशन
- कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह का नियंत्रण)
Lip Sync मॉडल्स
प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई lip sync मॉडल प्रदान करता है:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Standard lip sync मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:
- MetaHuman और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
- रीयल-टाइम प्रदर्शन के लिए अनुकूलित
- कम संसाधन आवश्यकताएँ
- प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
Standard Model का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करना होगा। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।
Realistic lip sync मॉडल विशेष रूप से MetaHuman कैरेक्टर के लिए उन्नत दृश्य विश्वस्तता प्रदान करता है:
- उन्नत चेहरे की एनिमेशन (81 चेहरे के नियंत्रण) के साथ MetaHuman और ARKit-आधारित कैरेक्टर के साथ संगत
- अधिक प्राकृतिक मुंह की हरकतों के साथ उच्च दृश्य गुणवत्ता
- थोड़ी अधिक प्रदर्शन आवश्यकताएँ
- रीयल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- सिनेमैटिक अनुभवों और क्लोज़-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
- तीन अनुकूलन स्तर: Original, Semi-Optimized, और Highly Optimized
- कॉन्फ़िगरेबल Morph Target सेट (देखें Morph Target Set Selection)
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
Realistic Model मुख्य प्लगइन में शामिल है और इसका उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
Mood-Enabled Realistic मॉडल MetaHuman कैरेक्टर के लिए भावना-जागरूक चेहरे की एनिमेशन प्रदान करता है:
- मूड-रिस्पॉन्सिव चेहरे की एनिमेशन (81 चेहरे के नियंत्रण) के साथ MetaHuman और ARKit-आधारित कैरेक्टर के साथ संगत
- 12 विभिन्न मूड प्रकार (Neutral, Happy, Sad, Confident, आदि)
- कॉन्फ़िगरेबल मूड तीव्रता (0.0 से 1.0)
- बेहतर सिंक्रोनाइज़ेशन के लिए समायोज्य लुकअहेड टाइमिंग (20ms से 200ms)
- चयन योग्य आउटपुट प्रकार: Full Face या Mouth Only नियंत्रण
- रीयल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- कॉन्फ़िगरेबल Morph Target सेट (देखें Morph Target Set Selection)
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
Mood-Enabled Realistic Model मुख्य प्लगइन में शामिल है और इसका उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
आप प्रदर्शन, कैरेक्टर संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के लिए अपनी प्रोजेक्ट आवश्यकताओं के आधार पर उपयुक्त मॉडल चुन सकते हैं।
यह कैसे काम करता है
प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:
- ऑडियो डेटा float PCM फ़ॉर्मेट में, निर्दिष्ट चैनल और सैंपल दर के साथ प्राप्त होता है
- प्लगइन मॉडल के अनुसार चेहरे का नियंत्रण डेटा या viseme उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
- मूड-सक्षम मॉडल के लिए, चेहरे की एनिमेशन पर भावनात्मक संदर्भ लागू किया जाता है
- एनिमेशन डेटा रीयल-टाइम में कैरेक्टर के चेहरे की हरकतों को चलाता है
प्रदर्शन आर्किटेक्चर
Runtime MetaHuman Lip Sync रीयल-टाइम अनुप्रयोगों के लिए उपयुक्त सुसंगत, कम-विलंबता lip sync परिणाम देने के लिए केवल-CPU अनुमान का उपयोग करता है। डिफ़ॉल्ट रूप से, प्लगइन हर 10 मिलीसेकंड में lip sync प्रोसेसिंग करता है (समायोज्य - सभी उपलब्ध सेटिंग्स के लिए Plugin Configuration देखें जिसमें Processing Chunk Size, थ्रेड काउंट, और अन्य प्रदर्शन पैरामीटर शामिल हैं)।
मॉडल आर्किटेक्चर अवलोकन
lip sync मॉडल एक कॉम्पैक्ट Transformer-आधारित न्यूरल नेटवर्क का उपयोग करते हैं जो mel-spectrogram विश्लेषण के माध्यम से ऑडियो को प्रोसेस करता है। यह हल्का आर्किटेक्चर विशेष रूप से कुशल CPU अनुमान और न्यूनतम मेमोरी फुटप्रिंट के साथ रीयल-टाइम प्रदर्शन के लिए डिज़ाइन किया गया है।
CPU अनुमान क्यों?
रीयल-टाइम lip sync जैसे छोटे, बार-बार अनुमान संचालन के लिए, CPU प्रोसेसिंग GPU की तुलना में बेहतर विलंबता विशेषताएँ प्रदान करता है। बैच आकार 1 और 10-100ms अनुमान अंतराल पर, PCIe स्थानांतरण और कर्नेल लॉन्च से GPU ओवरहेड अक्सर वास्तविक गणना समय से अधिक होता है। इसके अतिरिक्त, गेम इंजनों में GPU पहले से ही रेंडरिंग, शेडर्स और फिजिक्स से संतृप्त होता है, जिससे संसाधन विवाद पैदा होता है जो अप्रत्याशित विलंबता स्पाइक्स उत्पन्न करता है।
हार्डवेयर संगतता
प्लगइन अधिकांश मिड-टियर और उच्च CPU पर समर्पित ग्राफिक्स हार्डवेयर की आवश्यकता के बिना कुशलतापूर्वक काम करता है, डेस्कटॉप, मोबाइल और VR प्लेटफ़ॉर्म पर रीयल-टाइम प्रदर्शन प्रदान करता है। कमज़ोर हार्डवेयर के लिए, आप रीयल-टाइम प्रदर्शन बनाए रखने के लिए थोड़ी कम प्रतिक्रिया के साथ Model Type को Semi-Optimized या Highly Optimized में समायोजित कर सकते हैं, या Processing Chunk Size बढ़ा सकते हैं।
त्वरित शुरुआत
आपके कैरेक्टर पर lip sync सक्षम करने के लिए एक बुनियादी सेटअप यहाँ है:
- MetaHuman कैरेक्टर के लिए, Setup Guide का पालन करें
- कस्टम कैरेक्टर के लिए, Custom Character Setup Guide का पालन करें
- अपना पसंदीदा lip sync मॉडल चुनें और कॉन्फ़िगर करें
- अपने Blueprint में ऑडियो इनपुट प्रोसेसिंग सेट करें
- Animation Blueprint में उपयुक्त lip sync नोड कनेक्ट करें
- ऑडियो चलाएँ और देखें कि आपका कैरेक्टर भावना के साथ बोलता है!
अतिरिक्त संसाधन
📦 डाउनलोड और लिंक
डेमो प्रोजेक्ट:
दो उपयोग के लिए तैयार डेमो प्रोजेक्ट उपलब्ध हैं - पूर्ण विवरण, डाउनलोड और वॉकथ्रू के लिए समर्पित Demo Projects पेज देखें:
- Full AI Conversational NPC Workflow - speech recognition + LLM chatbot + TTS + lip sync
- Basic Lip Sync Demo - माइक्रोफ़ोन इनपुट, ऑडियो फ़ाइलें, TTS
दोनों डेमो क्रॉस-प्लेटफ़ॉर्म (Windows, Mac, Linux, iOS, Android, Meta Quest) हैं और पैकेज्ड बिल्ड और पूर्ण UE 5.6+ स्रोत प्रोजेक्ट के रूप में उपलब्ध हैं।
🎥 वीडियो ट्यूटोरियल
विशेष रुप से प्रदर्शित डेमो:
Realistic Model (उच्च-गुणवत्ता) ट्यूटोरियल:
- High-Quality Lip Sync from Audio File/Buffer
- High-Quality Lip Sync with Mood Control & Local TTS
- High-Quality Lip Sync with ElevenLabs & OpenAI TTS
- High-Quality Live Microphone Lip Sync
Standard Model ट्यूटोरियल:
- Standard Live Microphone Lip Sync
- Standard Lip Sync with Local Text-to-Speech
- Standard Lip Sync with ElevenLabs & OpenAI TTS
सामान्य सेटअप:
- Adding a Custom MetaHuman Character to the Demo Project
- Setup tutorial video
- Demo project walkthrough (older)
💬 समर्थन
- कस्टम डेवलपमेंट: solutions@georgy.dev (टीमों और संगठनों के लिए अनुकूलित समाधान)