मुख्य कंटेंट तक स्किप करें

अवलोकन

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync एक प्लगइन है जो MetaHuman और कस्टम कैरेक्टर दोनों के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिनमें शामिल हैं:

प्लगइन ऑडियो इनपुट के आधार पर आंतरिक रूप से विसिमे (स्वनिम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूँकि यह टेक्स्ट के बजाय सीधे ऑडियो डेटा के साथ काम करता है, प्लगइन बहुभाषी इनपुट का समर्थन करता है, जिसमें अंग्रेज़ी, स्पैनिश, फ़्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इटैलियन, पुर्तगाली, अरबी और हिंदी शामिल हैं लेकिन इन्हीं तक सीमित नहीं हैं। वस्तुतः किसी भी भाषा का समर्थन है क्योंकि लिप सिंक भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग के बजाय ऑडियो स्वनिम से उत्पन्न होता है।

Standard Model 14 विसिमे उत्पन्न करता है और पूर्वनिर्धारित pose asset का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, Realistic Models (विशेष रूप से MetaHuman और ARKit-आधारित पात्रों के लिए) पूर्वनिर्धारित pose asset पर निर्भर किए बिना 81 facial control changes उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती हैं।

कैरेक्टर संगतता

अपने नाम के बावजूद, Runtime MetaHuman Lip Sync केवल MetaHuman ही नहीं, बल्कि कई अन्य प्रकार के पात्रों के साथ भी काम करता है:

लोकप्रिय व्यावसायिक कैरेक्टर सिस्टम

  • Daz Genesis 8/9 पात्र
  • Reallusion Character Creator 3/4 (CC3/CC4) पात्र
  • Mixamo पात्र
  • ReadyPlayerMe अवतार

एनीमेशन मानक समर्थन

  • FACS-आधारित ब्लेंडशेप सिस्टम
  • Apple ARKit ब्लेंडशेप मानक
  • Preston Blair स्वनिम सेट
  • 3ds Max स्वनिम सिस्टम
  • चेहरे के भावों के लिए कस्टम मॉर्फ टारगेट वाला कोई भी पात्र

गैर-MetaHuman पात्रों के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।

एनीमेशन पूर्वावलोकन

विभिन्न पात्र प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटे एनिमेशन को देखें:

यथार्थवादी मॉडल, MetaHuman चरित्र के साथ
MetaHuman किरदार के साथ मानक मॉडल
कस्टम चरित्र के साथ मानक मॉडल
कस्टम कैरेक्टर के साथ Standard मॉडल

प्रमुख विशेषताएँ

  • माइक्रोफ़ोन इनपुट से रीयल-टाइम lip sync
  • ऑफ़लाइन ऑडियो प्रोसेसिंग समर्थन
  • मॉडल-विशिष्ट प्लेटफ़ॉर्म समर्थन के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
  • एकाधिक कैरेक्टर सिस्टम और एनिमेशन मानकों का समर्थन
  • कस्टम कैरेक्टर के लिए लचीला viseme मैपिंग
  • यूनिवर्सल भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
  • अभिव्यक्ति को बेहतर बनाने के लिए मूड-अवेयर चेहरे की एनिमेशन
  • कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह का नियंत्रण)

Lip Sync मॉडल्स

प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई lip sync मॉडल प्रदान करता है:

Standard lip sync मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:

  • MetaHuman और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
  • रीयल-टाइम प्रदर्शन के लिए अनुकूलित
  • कम संसाधन आवश्यकताएँ
  • प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
आवश्यक एक्सटेंशन प्लगइन

Standard Model का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करना होगा। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।

आप प्रदर्शन, कैरेक्टर संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के लिए अपनी प्रोजेक्ट आवश्यकताओं के आधार पर उपयुक्त मॉडल चुन सकते हैं।

यह कैसे काम करता है

प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:

  1. ऑडियो डेटा float PCM फ़ॉर्मेट में, निर्दिष्ट चैनल और सैंपल दर के साथ प्राप्त होता है
  2. प्लगइन मॉडल के अनुसार चेहरे का नियंत्रण डेटा या viseme उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
  3. मूड-सक्षम मॉडल के लिए, चेहरे की एनिमेशन पर भावनात्मक संदर्भ लागू किया जाता है
  4. एनिमेशन डेटा रीयल-टाइम में कैरेक्टर के चेहरे की हरकतों को चलाता है

प्रदर्शन आर्किटेक्चर

Runtime MetaHuman Lip Sync रीयल-टाइम अनुप्रयोगों के लिए उपयुक्त सुसंगत, कम-विलंबता lip sync परिणाम देने के लिए केवल-CPU अनुमान का उपयोग करता है। डिफ़ॉल्ट रूप से, प्लगइन हर 10 मिलीसेकंड में lip sync प्रोसेसिंग करता है (समायोज्य - सभी उपलब्ध सेटिंग्स के लिए Plugin Configuration देखें जिसमें Processing Chunk Size, थ्रेड काउंट, और अन्य प्रदर्शन पैरामीटर शामिल हैं)।

मॉडल आर्किटेक्चर अवलोकन

lip sync मॉडल एक कॉम्पैक्ट Transformer-आधारित न्यूरल नेटवर्क का उपयोग करते हैं जो mel-spectrogram विश्लेषण के माध्यम से ऑडियो को प्रोसेस करता है। यह हल्का आर्किटेक्चर विशेष रूप से कुशल CPU अनुमान और न्यूनतम मेमोरी फुटप्रिंट के साथ रीयल-टाइम प्रदर्शन के लिए डिज़ाइन किया गया है।

CPU अनुमान क्यों?

रीयल-टाइम lip sync जैसे छोटे, बार-बार अनुमान संचालन के लिए, CPU प्रोसेसिंग GPU की तुलना में बेहतर विलंबता विशेषताएँ प्रदान करता है। बैच आकार 1 और 10-100ms अनुमान अंतराल पर, PCIe स्थानांतरण और कर्नेल लॉन्च से GPU ओवरहेड अक्सर वास्तविक गणना समय से अधिक होता है। इसके अतिरिक्त, गेम इंजनों में GPU पहले से ही रेंडरिंग, शेडर्स और फिजिक्स से संतृप्त होता है, जिससे संसाधन विवाद पैदा होता है जो अप्रत्याशित विलंबता स्पाइक्स उत्पन्न करता है।

हार्डवेयर संगतता

प्लगइन अधिकांश मिड-टियर और उच्च CPU पर समर्पित ग्राफिक्स हार्डवेयर की आवश्यकता के बिना कुशलतापूर्वक काम करता है, डेस्कटॉप, मोबाइल और VR प्लेटफ़ॉर्म पर रीयल-टाइम प्रदर्शन प्रदान करता है। कमज़ोर हार्डवेयर के लिए, आप रीयल-टाइम प्रदर्शन बनाए रखने के लिए थोड़ी कम प्रतिक्रिया के साथ Model Type को Semi-Optimized या Highly Optimized में समायोजित कर सकते हैं, या Processing Chunk Size बढ़ा सकते हैं।

त्वरित शुरुआत

आपके कैरेक्टर पर lip sync सक्षम करने के लिए एक बुनियादी सेटअप यहाँ है:

  1. MetaHuman कैरेक्टर के लिए, Setup Guide का पालन करें
  2. कस्टम कैरेक्टर के लिए, Custom Character Setup Guide का पालन करें
  3. अपना पसंदीदा lip sync मॉडल चुनें और कॉन्फ़िगर करें
  4. अपने Blueprint में ऑडियो इनपुट प्रोसेसिंग सेट करें
  5. Animation Blueprint में उपयुक्त lip sync नोड कनेक्ट करें
  6. ऑडियो चलाएँ और देखें कि आपका कैरेक्टर भावना के साथ बोलता है!

अतिरिक्त संसाधन

📦 डाउनलोड और लिंक

डेमो प्रोजेक्ट:

दो उपयोग के लिए तैयार डेमो प्रोजेक्ट उपलब्ध हैं - पूर्ण विवरण, डाउनलोड और वॉकथ्रू के लिए समर्पित Demo Projects पेज देखें:

दोनों डेमो क्रॉस-प्लेटफ़ॉर्म (Windows, Mac, Linux, iOS, Android, Meta Quest) हैं और पैकेज्ड बिल्ड और पूर्ण UE 5.6+ स्रोत प्रोजेक्ट के रूप में उपलब्ध हैं।

🎥 वीडियो ट्यूटोरियल

विशेष रुप से प्रदर्शित डेमो:

Realistic Model (उच्च-गुणवत्ता) ट्यूटोरियल:

Standard Model ट्यूटोरियल:

सामान्य सेटअप:

💬 समर्थन

  • कस्टम डेवलपमेंट: solutions@georgy.dev (टीमों और संगठनों के लिए अनुकूलित समाधान)
Join our Discord
online · support