अवलोकन

Runtime MetaHuman Lip Sync एक प्लगइन है जो MetaHuman और कस्टम कैरेक्टर दोनों के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिनमें शामिल हैं:

माइक्रोफ़ोन इनपुट Runtime Audio Importer's capturable sound wave के माध्यम से
Runtime Text To Speech या Runtime AI Chatbot Integrator से संश्लेषित भाषण
Runtime Audio Importer के माध्यम से multiple formats में स्ट्रीम किया गया या आयातित ऑडियो डेटा
फ़्लोट PCM प्रारूप में कोई भी ऑडियो डेटा (फ़्लोटिंग-पॉइंट सैंपल्स की एक सरणी)

प्लगइन ऑडियो इनपुट के आधार पर आंतरिक रूप से विसिमे (स्वनिम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूँकि यह टेक्स्ट के बजाय सीधे ऑडियो डेटा के साथ काम करता है, प्लगइन बहुभाषी इनपुट का समर्थन करता है, जिसमें अंग्रेज़ी, स्पैनिश, फ़्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इटैलियन, पुर्तगाली, अरबी और हिंदी शामिल हैं लेकिन इन्हीं तक सीमित नहीं हैं। वस्तुतः किसी भी भाषा का समर्थन है क्योंकि लिप सिंक भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग के बजाय ऑडियो स्वनिम से उत्पन्न होता है।

Standard Model 14 विसिमे उत्पन्न करता है और पूर्वनिर्धारित pose asset का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, Realistic Models (विशेष रूप से MetaHuman और ARKit-आधारित पात्रों के लिए) पूर्वनिर्धारित pose asset पर निर्भर किए बिना 81 facial control changes उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती हैं।

कैरेक्टर संगतता

अपने नाम के बावजूद, Runtime MetaHuman Lip Sync केवल MetaHuman ही नहीं, बल्कि कई अन्य प्रकार के पात्रों के साथ भी काम करता है:

एनीमेशन मानक समर्थन

FACS-आधारित ब्लेंडशेप सिस्टम
Apple ARKit ब्लेंडशेप मानक
Preston Blair स्वनिम सेट
3ds Max स्वनिम सिस्टम
चेहरे के भावों के लिए कस्टम मॉर्फ टारगेट वाला कोई भी पात्र

गैर-MetaHuman पात्रों के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।

एनीमेशन पूर्वावलोकन

विभिन्न पात्र प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटे एनिमेशन को देखें:

यथार्थवादी मॉडल, MetaHuman चरित्र के साथ

MetaHuman किरदार के साथ मानक मॉडल

कस्टम चरित्र के साथ मानक मॉडल

कस्टम कैरेक्टर के साथ Standard मॉडल

प्रमुख विशेषताएँ

माइक्रोफ़ोन इनपुट से रीयल-टाइम lip sync
ऑफ़लाइन ऑडियो प्रोसेसिंग समर्थन
मॉडल-विशिष्ट प्लेटफ़ॉर्म समर्थन के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
एकाधिक कैरेक्टर सिस्टम और एनिमेशन मानकों का समर्थन
कस्टम कैरेक्टर के लिए लचीला viseme मैपिंग
यूनिवर्सल भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
अभिव्यक्ति को बेहतर बनाने के लिए मूड-अवेयर चेहरे की एनिमेशन
कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह का नियंत्रण)

Lip Sync मॉडल्स

प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई lip sync मॉडल प्रदान करता है:

Standard Model
Realistic Model
Mood-Enabled Realistic Model

Standard lip sync मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:

MetaHuman और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
रीयल-टाइम प्रदर्शन के लिए अनुकूलित
कम संसाधन आवश्यकताएँ
प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)

आवश्यक एक्सटेंशन प्लगइन

Standard Model का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करना होगा। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।

आप प्रदर्शन, कैरेक्टर संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के लिए अपनी प्रोजेक्ट आवश्यकताओं के आधार पर उपयुक्त मॉडल चुन सकते हैं।

यह कैसे काम करता है

प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:

ऑडियो डेटा float PCM फ़ॉर्मेट में, निर्दिष्ट चैनल और सैंपल दर के साथ प्राप्त होता है
प्लगइन मॉडल के अनुसार चेहरे का नियंत्रण डेटा या viseme उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
मूड-सक्षम मॉडल के लिए, चेहरे की एनिमेशन पर भावनात्मक संदर्भ लागू किया जाता है
एनिमेशन डेटा रीयल-टाइम में कैरेक्टर के चेहरे की हरकतों को चलाता है

प्रदर्शन आर्किटेक्चर

Runtime MetaHuman Lip Sync रीयल-टाइम अनुप्रयोगों के लिए उपयुक्त सुसंगत, कम-विलंबता lip sync परिणाम देने के लिए केवल-CPU अनुमान का उपयोग करता है। डिफ़ॉल्ट रूप से, प्लगइन हर 10 मिलीसेकंड में lip sync प्रोसेसिंग करता है (समायोज्य - सभी उपलब्ध सेटिंग्स के लिए Plugin Configuration देखें जिसमें Processing Chunk Size, थ्रेड काउंट, और अन्य प्रदर्शन पैरामीटर शामिल हैं)।

मॉडल आर्किटेक्चर अवलोकन

lip sync मॉडल एक कॉम्पैक्ट Transformer-आधारित न्यूरल नेटवर्क का उपयोग करते हैं जो mel-spectrogram विश्लेषण के माध्यम से ऑडियो को प्रोसेस करता है। यह हल्का आर्किटेक्चर विशेष रूप से कुशल CPU अनुमान और न्यूनतम मेमोरी फुटप्रिंट के साथ रीयल-टाइम प्रदर्शन के लिए डिज़ाइन किया गया है।

CPU अनुमान क्यों?

रीयल-टाइम lip sync जैसे छोटे, बार-बार अनुमान संचालन के लिए, CPU प्रोसेसिंग GPU की तुलना में बेहतर विलंबता विशेषताएँ प्रदान करता है। बैच आकार 1 और 10-100ms अनुमान अंतराल पर, PCIe स्थानांतरण और कर्नेल लॉन्च से GPU ओवरहेड अक्सर वास्तविक गणना समय से अधिक होता है। इसके अतिरिक्त, गेम इंजनों में GPU पहले से ही रेंडरिंग, शेडर्स और फिजिक्स से संतृप्त होता है, जिससे संसाधन विवाद पैदा होता है जो अप्रत्याशित विलंबता स्पाइक्स उत्पन्न करता है।

हार्डवेयर संगतता

प्लगइन अधिकांश मिड-टियर और उच्च CPU पर समर्पित ग्राफिक्स हार्डवेयर की आवश्यकता के बिना कुशलतापूर्वक काम करता है, डेस्कटॉप, मोबाइल और VR प्लेटफ़ॉर्म पर रीयल-टाइम प्रदर्शन प्रदान करता है। कमज़ोर हार्डवेयर के लिए, आप रीयल-टाइम प्रदर्शन बनाए रखने के लिए थोड़ी कम प्रतिक्रिया के साथ Model Type को Semi-Optimized या Highly Optimized में समायोजित कर सकते हैं, या Processing Chunk Size बढ़ा सकते हैं।

त्वरित शुरुआत

आपके कैरेक्टर पर lip sync सक्षम करने के लिए एक बुनियादी सेटअप यहाँ है:

MetaHuman कैरेक्टर के लिए, Setup Guide का पालन करें
कस्टम कैरेक्टर के लिए, Custom Character Setup Guide का पालन करें
अपना पसंदीदा lip sync मॉडल चुनें और कॉन्फ़िगर करें
अपने Blueprint में ऑडियो इनपुट प्रोसेसिंग सेट करें
Animation Blueprint में उपयुक्त lip sync नोड कनेक्ट करें
ऑडियो चलाएँ और देखें कि आपका कैरेक्टर भावना के साथ बोलता है!

अतिरिक्त संसाधन

📦 डाउनलोड और लिंक

डेमो प्रोजेक्ट:

दो उपयोग के लिए तैयार डेमो प्रोजेक्ट उपलब्ध हैं - पूर्ण विवरण, डाउनलोड और वॉकथ्रू के लिए समर्पित Demo Projects पेज देखें:

Full AI Conversational NPC Workflow - speech recognition + LLM chatbot + TTS + lip sync
Basic Lip Sync Demo - माइक्रोफ़ोन इनपुट, ऑडियो फ़ाइलें, TTS

दोनों डेमो क्रॉस-प्लेटफ़ॉर्म (Windows, Mac, Linux, iOS, Android, Meta Quest) हैं और पैकेज्ड बिल्ड और पूर्ण UE 5.6+ स्रोत प्रोजेक्ट के रूप में उपलब्ध हैं।

🎥 वीडियो ट्यूटोरियल

विशेष रुप से प्रदर्शित डेमो:

Realistic Model (उच्च-गुणवत्ता) ट्यूटोरियल:

Standard Model ट्यूटोरियल:

सामान्य सेटअप:

💬 समर्थन

कस्टम डेवलपमेंट: solutions@georgy.dev (टीमों और संगठनों के लिए अनुकूलित समाधान)

Join our Discord

online · support

कैरेक्टर संगतता​

लोकप्रिय व्यावसायिक कैरेक्टर सिस्टम​

एनीमेशन मानक समर्थन​

एनीमेशन पूर्वावलोकन​

प्रमुख विशेषताएँ​

Lip Sync मॉडल्स​

यह कैसे काम करता है​

प्रदर्शन आर्किटेक्चर​

मॉडल आर्किटेक्चर अवलोकन​

CPU अनुमान क्यों?​

हार्डवेयर संगतता​

त्वरित शुरुआत​

अतिरिक्त संसाधन​

📦 डाउनलोड और लिंक​

🎥 वीडियो ट्यूटोरियल​

विशेष रुप से प्रदर्शित डेमो:​

Realistic Model (उच्च-गुणवत्ता) ट्यूटोरियल:​

Standard Model ट्यूटोरियल:​

सामान्य सेटअप:​

💬 समर्थन​