मुख्य कंटेंट तक स्किप करें

अवलोकन

रनटाइम मेटाह्यूमन लिप सिंक डॉक्यूमेंटेशन

रनटाइम मेटाह्यूमन लिप सिंक एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिसमें शामिल हैं:

प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम (फोनेम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी सहित, लेकिन इन तक सीमित नहीं, बहुभाषी इनपुट का समर्थन करता है। सचमुच कोई भी भाषा समर्थित है क्योंकि लिप सिंक ऑडियो फोनेम से उत्पन्न होता है न कि भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग से।

स्टैंडर्ड मॉडल 14 विसेम उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 फेशियल कंट्रोल परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन प्राप्त होती है।

कैरेक्टर संगतता

इसके नाम के बावजूद, रनटाइम मेटाह्यूमन लिप सिंक केवल मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:

लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम

  • Daz Genesis 8/9 कैरेक्टर्स
  • Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
  • Mixamo कैरेक्टर्स
  • ReadyPlayerMe अवतार

एनीमेशन मानक समर्थन

  • FACS-आधारित ब्लेंडशेप सिस्टम
  • Apple ARKit ब्लेंडशेप मानक
  • Preston Blair फोनेम सेट
  • 3ds Max फोनेम सिस्टम
  • चेहरे के भावों के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर

गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।

एनीमेशन पूर्वावलोकन

विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशन को देखें:

Realistic Lip Sync Example
यथार्थवादी मॉडल मेटाह्यूमन कैरेक्टर के साथ
Standard Lip Sync Example
मानक मॉडल मेटाह्यूमन कैरेक्टर के साथ
Custom Character Lip Sync Example
मानक मॉडल कस्टम चरित्र के साथ
Custom Character Lip Sync Example
कस्टम कैरेक्टर के साथ स्टैंडर्ड मॉडल

मुख्य विशेषताएँ

  • माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
  • ऑफ़लाइन ऑडियो प्रोसेसिंग सपोर्ट
  • मॉडल-विशिष्ट प्लेटफ़ॉर्म सपोर्ट के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
  • एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए समर्थन
  • कस्टम कैरेक्टर के लिए लचीला विसेम मैपिंग
  • सार्वभौमिक भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
  • बेहतर अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनीमेशन
  • कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह के नियंत्रण)

लिप सिंक मॉडल

प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:

स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:

  • MetaHumans और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
  • रियल-टाइम प्रदर्शन के लिए अनुकूलित
  • कम संसाधन आवश्यकताएँ
  • स्थानीय TTS (Runtime Text To Speech प्लगइन) के साथ पूर्ण संगतता
  • प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
एक्सटेंशन प्लगइन आवश्यक

स्टैंडर्ड मॉडल का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।

आप प्रदर्शन, चरित्र संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के आधार पर अपनी परियोजना की आवश्यकताओं के लिए उपयुक्त मॉडल चुन सकते हैं।

TTS संगतता नोट

जबकि सभी मॉडल विभिन्न ऑडियो इनपुट विधियों का समर्थन करते हैं, नियमित रियलिस्टिक मॉडल की ONNX रनटाइम संघर्षों के कारण स्थानीय TTS के साथ सीमित संगतता है। हालाँकि, मूड-सक्षम रियलिस्टिक मॉडल स्थानीय TTS के साथ पूरी तरह संगत है। टेक्स्ट-टू-स्पीच कार्यक्षमता के लिए:

  • मानक मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
  • रियलिस्टिक मॉडल: बाहरी TTS सेवाओं की अनुशंसा (OpenAI, ElevenLabs)
  • मूड-सक्षम रियलिस्टिक मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत

यह कैसे काम करता है

प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को संसाधित करता है:

  1. ऑडियो डेटा निर्दिष्ट चैनल और सैंपल दर के साथ फ्लोट PCM प्रारूप के रूप में प्राप्त होता है
  2. प्लगइन मॉडल के आधार पर चेहरे का नियंत्रण डेटा या विज़म उत्पन्न करने के लिए ऑडियो को संसाधित करता है
  3. मूड-सक्षम मॉडल के लिए, चेहरे की एनीमेशन पर भावनात्मक संदर्भ लागू किया जाता है
  4. एनीमेशन डेटा रीयल-टाइम में चरित्र की चेहरे की हरकतों को संचालित करता है

त्वरित प्रारंभ

अपने चरित्र पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप है:

  1. MetaHuman पात्रों के लिए, सेटअप गाइड का पालन करें
  2. कस्टम पात्रों के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
  3. अपनी पसंदीदा लिप सिंक मॉडल चुनें और कॉन्फ़िगर करें
  4. अपने ब्लूप्रिंट में ऑडियो इनपुट प्रसंस्करण सेट करें
  5. एनीमेशन ब्लूप्रिंट में उपयुक्त लिप सिंक नोड कनेक्ट करें
  6. ऑडियो चलाएँ और अपने चरित्र को भावना के साथ बोलते हुए देखें!

अतिरिक्त संसाधन

📦 डाउनलोड और लिंक

🎥 वीडियो ट्यूटोरियल

फ़ीचर्ड डेमो:

यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल्स:

मानक मॉडल ट्यूटोरियल्स:

सामान्य सेटअप:

💬 सहायता