प्लगइन कॉन्फ़िगरेशन
मॉडल कॉन्फ़िगरेशन
मानक मॉडल कॉन्फ़िगरेशन
Create Runtime Viseme Generator नोड डिफ़ॉल्ट सेटिंग्स का उपयोग करता है जो अधिकांश परिदृश्यों के लिए अच्छी तरह काम करती हैं। कॉन्फ़िगरेशन एनीमेशन ब्लूप्रिंट ब्लेंडिंग नोड गुणों के माध्यम से संभाला जाता है।
एनीमेशन ब्लूप्रिंट कॉन्फ़िगरेशन विकल्पों के लिए, नीचे लिप सिंक कॉन्फ़िगरेशन अनुभाग देखें।
यथार्थवादी मॉडल कॉन्फ़िगरेशन
Create Realistic MetaHuman Lip Sync Generator नोड एक वैकल्पिक Configuration पैरामीटर स्वीकार करता है जो आपको जनरेटर के व्यवहार को अनुकूलित करने की अनुमति देता है:
मॉडल प्रकार
Model Type सेटिंग यह निर्धारित करती है कि यथार्थवादी मॉडल के किस संस्करण का उपयोग करना है:
| मॉडल प्रकार | प्रदर्शन | दृश्य गुणवत्ता | शोर संचालन | अनुशंसित उपयोग के मामले |
|---|---|---|---|---|
| अत्यधिक अनुकूलित (डिफ़ॉल्ट) | उच्चतम प्रदर्शन, सबसे कम CPU उपयोग | अच्छी गुणवत्ता | पृष्ठभूमि शोर या गैर-आवाज़ ध्वनियों के साथ ध्यान देने योग्य मुंह की हरकतें दिखा सकता है | स्वच्छ ऑडियो वातावरण, प्रदर्शन-महत्वपूर्ण परिदृश्य |
| अर्ध-अनुकूलित | अच्छा प्रदर्शन, मध्यम CPU उपयोग | उच्च गुणवत्ता | शोरयुक्त ऑडियो के साथ बेहतर स्थिरता | संतुलित प्रदर्शन और गुणवत्ता, मिश्रित ऑडियो स्थितियाँ |
| मूल | आधुनिक CPUs पर रियल-टाइम उपयोग के लिए उपयुक्त | उच्चतम गुणवत्ता | पृष्ठभूमि शोर और गैर-आवाज़ ध्वनियों के साथ सबसे अधिक स्थिर | उच्च-गुणवत्ता उत्पादन, शोरयुक्त ऑडियो वातावरण, जब अधिकतम सटीकता की आवश्यकता हो |
प्रदर्शन सेटिंग्स
Intra Op Threads: आंतरिक मॉडल प्रसंस्करण संचालन के लिए उपयोग किए जाने वाले थ्रेड्स की संख्या को नियंत्रित करता है।
- 0 (डिफ़ॉल्ट/स्वचालित): स्वचालित पहचान का उपयोग करता है (आमतौर पर उपलब्ध CPU कोर का 1/4, अधिकतम 4)
- 1-16: मैन्युअल रूप से थ्रेड काउंट निर्दिष्ट करें। उच्च मान मल्टी-कोर सिस्टम पर प्रदर्शन में सुधार कर सकते हैं लेकिन अधिक CPU का उपयोग करते हैं
Inter Op Threads: विभिन्न मॉडल संचालन के समानांतर निष्पादन के लिए उपयोग किए जाने वाले थ्रेड्स की संख्या को नियंत्रित करता है।
- 0 (डिफ़ॉल्ट/स्वचालित): स्वचालित पहचान का उपयोग करता है (आमतौर पर उपलब्ध CPU कोर का 1/8, अधिकतम 2)
- 1-8: मैन्युअल रूप से थ्रेड काउंट निर्दिष्ट करें। आमतौर पर रियल-टाइम प्रसंस्करण के लिए कम रखा जाता है
प्रसंस्करण चंक आकार
Processing Chunk Size यह निर्धारित करता है कि प्रत्येक अनुमान चरण में कितने सैंपल प्रसंस्करित किए जाते हैं। डिफ़ॉल्ट मान 160 सैंपल है (16kHz पर ऑडियो का 10ms):
- छोटे मान अधिक बार अपडेट प्रदान करते हैं लेकिन CPU उपयोग बढ़ाते हैं
- बड़े मान CPU लोड कम करते हैं लेकिन लिप सिंक की प्रतिक्रियाशीलता कम कर सकते हैं
- इष्टतम संरेखण के लिए 160 के गुणकों का उपयोग करने की अनुशंसा की जाती है

मूड-सक्षम मॉडल कॉन्फ़िगरेशन
Create Realistic MetaHuman Lip Sync With Mood Generator नोड बुनियादी यथार्थवादी मॉडल से परे अतिरिक्त कॉन्फ़िगरेशन विकल्प प्रदान करता है:
बुनियादी कॉन्फ़िगरेशन
लुकअहेड एमएस: बेहतर लिप सिंक सटीकता के लिए मिलीसेकंड में लुकअहेड टाइमिंग।
- डिफ़ॉल्ट: 80ms
- रेंज: 20ms से 200ms (20 से विभाज्य होना चाहिए)
- उच्च मान बेहतर सिंक्रनाइज़ेशन प्रदान करते हैं लेकिन विलंबता बढ़ाते हैं
आउटपुट प्रकार: नियंत्रित करता है कि कौन से चेहरे के नियंत्रण उत्पन्न होते हैं।
- फुल फेस: सभी 81 चेहरे के नियंत्रण (भौंहें, आंखें, नाक, मुंह, जबड़ा, जीभ)
- माउथ ओनली: केवल मुंह, जबड़ा और जीभ से संबंधित नियंत्रण
प्रदर्शन सेटिंग्स: नियमित यथार्थवादी मॉडल के समान इंट्रा ऑप थ्रेड्स और इंटर ऑप थ्रेड्स सेटिंग्स का उपयोग करता है।
मूड सेटिंग्स
उपलब्ध मूड:
- तटस्थ, खुश, उदास, घृणा, क्रोध, आश्चर्य, भय
- आत्मविश्वासी, उत्साहित, ऊब, चंचल, भ्रमित
मूड तीव्रता: नियंत्रित करती है कि मूड एनीमेशन को कितनी दृढ़ता से प्रभावित करता है (0.0 से 1.0)
रनटाइम मूड नियंत्रण
आप रनटाइम के दौरान निम्नलिखित कार्यों का उपयोग करके मूड सेटिंग्स समायोजित कर सकते हैं:
- मूड सेट करें: वर्तमान मूड प्रकार बदलें
- मूड तीव्रता सेट करें: समायोजित करें कि मूड एनीमेशन को कितनी दृढ़ता से प्रभावित करता है (0.0 से 1.0)
- लुकअहेड एमएस सेट करें: सिंक्रनाइज़ेशन के लिए लुकअहेड टाइमिंग संशोधित करें
- आउटपुट प्रकार सेट करें: फुल फेस और माउथ ओनली नियंत्रणों के बीच स्विच करें

मूड चयन गाइड
अपनी सामग्री के आधार पर उपयुक्त मूड चुनें:
| मूड | सर्वोत्तम उपयोग | विशिष्ट तीव्रता सीमा |
|---|---|---|
| तटस्थ | सामान्य बातचीत, कथन, डिफ़ॉल्ट स्थिति | 0.5 - 1.0 |
| खुश | सकारात्मक सामग्री, हंसमुख संवाद, उत्सव | 0.6 - 1.0 |
| उदास | उदासी भरी सामग्री, भावनात्मक दृश्य, गंभीर क्षण | 0.5 - 0.9 |
| घृणा | नकारात्मक प्रतिक्रियाएं, अरुचिकर सामग्री, अस्वीकृति | 0.4 - 0.8 |
| क्रोध | आक्रामक संवाद, टकराव वाले दृश्य, निराशा | 0.6 - 1.0 |
| आश्चर्य | अप्रत्याशित घटनाएं, रहस्योद्घाटन, सदमे की प्रतिक्रियाएं | 0.7 - 1.0 |
| भय | धमकी भरी स्थितियां, चिंता, घबराहट भरा संवाद | 0.5 - 0.9 |
| आत्मविश्वासी | पेशेवर प्रस्तुतियां, नेतृत्व संवाद, दृढ़ भाषण | 0.7 - 1.0 |
| उत्साहित | ऊर्जावान सामग्री, घोषणाएं, उत्साही संवाद | 0.8 - 1.0 |
| ऊब | एकरस सामग्री, अरुचि भरा संवाद, थका हुआ भाषण | 0.3 - 0.7 |
| चंचल | आकस्मिक बातचीत, हास्य, हल्के-फुल्के संवाद | 0.6 - 0.9 |
| भ्रमित | प्रश्न-प्रधान संवाद, अनिश्चितता, हैरानी | 0.4 - 0.8 |
एनीमेशन ब्लूप्रिंट कॉन्फ़िगरेशन
लिप सिंक कॉन्फ़िगरेशन
- Standard Model
- Realistic Models
Blend Runtime MetaHuman Lip Sync नोड में इसके गुण पैनल में कॉन्फ़िगरेशन विकल्प हैं:
| गुण | डिफ़ॉल्ट | विवरण |
|---|---|---|
| इंटरपोलेशन गति | 25 | नियंत्रित करता है कि विसेम्स के बीच होंठों की गतिविधियाँ कितनी तेज़ी से संक्रमण करती हैं। उच्च मान तेज़ और अधिक अचानक संक्रमण का परिणाम देते हैं। |
| रीसेट समय | 0.2 | सेकंड में वह अवधि जिसके बाद लिप सिंक रीसेट हो जाता है। यह ऑडियो बंद होने के बाद लिप सिंक को जारी रहने से रोकने के लिए उपयोगी है। |
हँसी एनीमेशन
आप हँसी एनीमेशन भी जोड़ सकते हैं जो ऑडियो में पाई गई हँसी पर गतिशील रूप से प्रतिक्रिया देगा:
Blend Runtime MetaHuman Laughterनोड जोड़ें- अपने
RuntimeVisemeGeneratorवेरिएबल कोViseme Generatorपिन से कनेक्ट करें - यदि आप पहले से ही लिप सिंक का उपयोग कर रहे हैं:
Blend Runtime MetaHuman Lip Syncनोड के आउटपुट कोBlend Runtime MetaHuman Laughterनोड केSource Poseसे कनेक्ट करेंBlend Runtime MetaHuman Laughterनोड के आउटपुट कोOutput PoseकेResultपिन से कनेक्ट करें
- यदि लिप सिंक के बिना केवल हँसी का उपयोग कर रहे हैं:
- अपने स्रोत पोज़ को सीधे
Blend Runtime MetaHuman Laughterनोड केSource Poseसे कनेक्ट करें - आउटपुट को
Resultपिन से कनेक्ट करें
- अपने स्रोत पोज़ को सीधे

जब ऑडियो में हँसी का पता चलता है, तो आपका कैरेक्टर तदनुसार गतिशील रूप से एनिमेट होगा:

हँसी कॉन्फ़िगरेशन
Blend Runtime MetaHuman Laughter नोड के अपने कॉन्फ़िगरेशन विकल्प हैं:
| गुण | डिफ़ॉल्ट | विवरण |
|---|---|---|
| इंटरपोलेशन गति | 25 | नियंत्रित करता है कि हँसी एनीमेशन के बीच होंठों की गतिविधियाँ कितनी तेज़ी से संक्रमण करती हैं। उच्च मान तेज़ और अधिक अचानक संक्रमण का परिणाम देते हैं। |
| रीसेट समय | 0.2 | सेकंड में वह अवधि जिसके बाद हँसी रीसेट हो जाती है। यह ऑडियो बंद होने के बाद हँसी को जारी रहने से रोकने के लिए उपयोगी है। |
| अधिकतम हँसी वज़न | 0.7 | हँसी एनीमेशन की अधिकतम तीव्रता को स्केल करता है (0.0 - 1.0)। |
नोट: हँसी का पता लगाना वर्तमान में केवल Standard Model के साथ उपलब्ध है।
Blend Realistic MetaHuman Lip Sync नोड में इसके गुण पैनल में कॉन्फ़िगरेशन विकल्प हैं:
| गुण | डिफ़ॉल्ट | विवरण |
|---|---|---|
| इंटरपोलेशन गति | 30 | नियंत्रित करता है कि सक्रिय भाषण के दौरान चेहरे के भाव कितनी तेज़ी से संक्रमण करते हैं। उच्च मान तेज़, अधिक अचानक संक्रमण का परिणाम देते हैं। |
| निष्क्रिय इंटरपोलेशन गति | 15 | नियंत्रित करता है कि चेहरे के भाव निष्क्रिय/तटस्थ अवस्था में कितनी तेज़ी से वापस संक्रमण करते हैं। कम मान आराम की मुद्रा में अधिक सहज, अधिक क्रमिक वापसी बनाते हैं। |
| रीसेट समय | 0.2 | सेकंड में वह अवधि जिसके बाद लिप सिंक निष्क्रिय अवस्था में रीसेट हो जाता है |
| . ऑडियो रुकने के बाद भावों को जारी रहने से रोकने के लिए उपयोगी। | ||
| आइडल स्टेट को संरक्षित रखें | false | जब सक्षम किया जाता है, तो न्यूट्रल पर रीसेट करने के बजाय आइडल अवधि के दौरान अंतिम भावनात्मक स्थिति को संरक्षित रखता है। |
| आँखों के भावों को संरक्षित रखें | true | नियंत्रित करता है कि आइडल स्टेट के दौरान आँखों से संबंधित चेहरे के नियंत्रण संरक्षित रहें या नहीं। केवल तभी प्रभावी होता है जब 'आइडल स्टेट को संरक्षित रखें' सक्षम हो। |
| भौंहों के भावों को संरक्षित रखें | true | नियंत्रित करता है कि आइडल स्टेट के दौरान भौंहों और माथे से संबंधित नियंत्रण संरक्षित रहें या नहीं। केवल तभी प्रभावी होता है जब 'आइडल स्टेट को संरक्षित रखें' सक्षम हो। |
| मुँह के आकार को संरक्षित रखें | false | नियंत्रित करता है कि आइडल स्टेट के दौरान मुँह के आकार के नियंत्रण (जीभ और जबड़े जैसे भाषण-विशिष्ट हरकतों को छोड़कर) संरक्षित रहें या नहीं। केवल तभी प्रभावी होता है जब 'आइडल स्टेट को संरक्षित रखें' सक्षम हो। |
आइडल स्टेट संरक्षण
आइडल स्टेट को संरक्षित रखें सुविधा यह संबोधित करती है कि रियलिस्टिक मॉडल मौन अवधियों को कैसे संभालता है। स्टैंडर्ड मॉडल के विपरीत, जो अलग-अलग विसेम का उपयोग करता है और मौन के दौरान लगातार शून्य मानों पर लौटता है, रियलिस्टिक मॉडल का न्यूरल नेटवर्क सूक्ष्म चेहरे की स्थिति बनाए रख सकता है जो MetaHuman की डिफ़ॉल्ट आराम मुद्रा से भिन्न होती है।
कब सक्षम करें:
- भाषण खंडों के बीच भावनात्मक अभिव्यक्तियों को बनाए रखने के लिए
- चरित्र व्यक्तित्व लक्षणों को संरक्षित रखने के लिए
- सिनेमाई अनुक्रमों में दृश्य निरंतरता सुनिश्चित करने के लिए
क्षेत्रीय नियंत्रण विकल्प:
- आँखों के भाव: आँखों की सिकुड़न, चौड़ाई और पलकों की स्थिति को संरक्षित रखता है
- भौंहों के भाव: भौंहों और माथे की स्थिति को बनाए रखता है
- मुँह का आकार: भाषण हरकतों (जीभ, जबड़ा) को रीसेट करने की अनुमति देते हुए सामान्य मुँह की वक्रता को बनाए रखता है
मौजूदा एनिमेशन के साथ संयोजन
लिप सिंक और हँसी को मौजूदा बॉडी एनिमेशन और कस्टम फेशियल एनिमेशन के साथ लागू करने के लिए, उन्हें ओवरराइड किए बिना:
- अपने बॉडी एनिमेशन और अंतिम आउटपुट के बीच एक
Layered blend per boneनोड जोड़ें। सुनिश्चित करें किUse Attached Parentसही (true) है। - लेयर सेटअप कॉन्फ़िगर करें:
Layer Setupसरणी में 1 आइटम जोड़ें- लेयर के लिए
Branch Filtersमें 3 आइटम जोड़ें, निम्नलिखितBone Nameके साथ:FACIAL_C_FacialRootFACIAL_C_Neck2RootFACIAL_C_Neck1Root
- कस्टम फेशियल एनिमेशन के लिए महत्वपूर्ण:
Curve Blend Optionमें, "Use Max Value" चुनें। यह कस्टम फेशियल एनिमेशन (अभिव्यक्तियाँ, भावनाएँ, आदि) को लिप सिंक के ऊपर ठीक से लेयर करने की अनुमति देता है। - कनेक्शन बनाएँ:
- मौजूदा एनिमेशन (जैसे
BodyPose) →Base Poseइनपुट - फेशियल एनिमेशन आउटपुट (लिप सिंक और/या हँसी नोड्स से) →
Blend Poses 0इनपुट - लेयर्ड ब्लेंड नोड → अंतिम
Resultपोज़
- मौजूदा एनिमेशन (जैसे

लिप सिंक व्यवहार को ठीक-ट्यून करना
जीभ प्रोट्रूज़न नियंत्रण
मानक लिप सिंक मॉडल में, आप कुछ फोनेम के दौरान अत्यधिक आगे की जीभ की गति देख सकते हैं। जीभ के बाहर निकलने को नियंत्रित करने के लिए:
- अपने लिप सिंक ब्लेंड नोड के बाद, एक
Modify Curveनोड जोड़ें Modify Curveनोड पर राइट-क्लिक करें और Add Curve Pin चुनेंCTRL_expressions_tongueOutनाम के साथ एक कर्व पिन जोड़ें- नोड की Apply Mode प्रॉपर्टी को Scale पर सेट करें
- जीभ के विस्तार को नियंत्रित करने के लिए Value पैरामीटर समायोजित करें (उदाहरण के लिए, 20% कम करने के लिए 0.8)
जबड़ा खोलने का नियंत्रण
यथार्थवादी लिप सिंक आपकी ऑडियो सामग्री और दृश्य आवश्यकताओं के आधार पर अत्यधिक प्रतिक्रियाशील जबड़े की गतिविधियाँ उत्पन्न कर सकता है। जबड़ा खोलने की तीव्रता समायोजित करने के लिए:
- अपने लिप सिंक ब्लेंड नोड के बाद, एक
Modify Curveनोड जोड़ें Modify Curveनोड पर राइट-क्लिक करें और Add Curve Pin चुनेंCTRL_expressions_jawOpenनाम के साथ एक कर्व पिन जोड़ें- नोड की Apply Mode प्रॉपर्टी को Scale पर सेट करें
- जबड़े की गति की सीमा को नियंत्रित करने के लिए Value पैरामीटर समायोजित करें (उदाहरण के लिए, 10% कम करने के लिए 0.9)
मूड-विशिष्ट फाइन-ट्यूनिंग
मूड-सक्षम मॉडल के लिए, आप विशिष्ट भावनात्मक अभिव्यक्तियों को फाइन-ट्यून कर सकते हैं:
भौंह नियंत्रण:
CTRL_expressions_browRaiseInL/CTRL_expressions_browRaiseInR- भीतरी भौंह उठानाCTRL_expressions_browRaiseOuterL/CTRL_expressions_browRaiseOuterR- बाहरी भौंह उठानाCTRL_expressions_browDownL/CTRL_expressions_browDownR- भौंह नीचे करना
आँख अभिव्यक्ति नियंत्रण:
CTRL_expressions_eyeSquintInnerL/CTRL_expressions_eyeSquintInnerR- आँखें सिकोड़नाCTRL_expressions_eyeCheekRaiseL/CTRL_expressions_eyeCheekRaiseR- गाल उठाना
मॉडल तुलना और चयन
मॉडल के बीच चयन
अपने प्रोजेक्ट के लिए किस लिप सिंक मॉडल का उपयोग करना है, यह तय करते समय इन कारकों पर विचार करें:
| विचार | मानक मॉडल | यथार्थवादी मॉडल | मूड-सक्षम यथार्थवादी मॉडल |
|---|---|---|---|
| कैरेक्टर संगतता | MetaHumans और सभी कस्टम कैरेक्टर प्रकार | केवल MetaHumans | केवल MetaHumans |
| दृश्य गुणवत्ता | कुशल प्रदर्शन के साथ अच्छा लिप सिंक | अधिक प्राकृतिक मुँह की गतिविधियों के साथ बढ़ी हुई यथार्थवादिता | भावनात्मक अभिव्यक्तियों के साथ बढ़ी हुई यथार्थवादिता |
| प्रदर्शन | मोबाइल/VR सहित सभी प्लेटफ़ॉर्म के लिए अनुकूलित | उच्च संसाधन आवश्यकताएँ | उच्च संसाधन आवश्यकताएँ |
| सुविधाएँ | 14 विसेम, हँसी का पता लगाना | 81 फेशियल कंट्रोल, 3 अनुकूलन स्तर | 81 फेशियल कंट्रोल, 12 मूड, कॉन्फ़िगर करने योग्य आउटपुट |
| प्लेटफ़ॉर्म समर्थन | Windows, Android, Quest | Windows, Mac, iOS, Linux, Android, Quest | Windows, Mac, iOS, Linux, Android, Quest |
| उपयोग के मामले | सामान्य अनुप्रयोग, गेम्स, VR/AR, मोबाइल | सिनेमाई अनुभव, क्लोज-अप इंटरैक्शन | भावनात्मक कहानी कहना, उन्नत कैरेक्टर इंटरैक्शन |
इंजन संस्करण संगतता
यदि आप Unreal Engine 5.2 का उपयोग कर रहे हैं, तो यथार्थवादी मॉडल UE के रीसैंपलिंग लाइब्रेरी में एक बग के कारण सही ढंग से काम नहीं कर सकते हैं। UE 5.2 उपयोगकर्ताओं के लिए जिन्हें विश्वसनीय लिप सिंक कार्यक्षमता की आवश्यकता है, कृपया मानक मॉडल का उपयोग करें।
यह समस्या विशेष रूप से UE 5.2 के लिए है और अन्य इंजन संस्करणों को प्रभावित नहीं करती है।
प्रदर्शन सिफारिशें
- अधिकांश परियोजनाओं के लिए, मानक मॉडल गुणवत्ता और प्रदर्शन का एक उत्कृष्ट संतुलन प्रदान करता है
- यथार्थवादी मॉडल का उपयोग तब करें जब आपको MetaHuman पात्रों के लिए उच्चतम दृश्य निष्ठा की आवश्यकता हो
- मूड-सक्षम यथार्थवादी मॉडल का उपयोग तब करें जब आपके एप्लिकेशन के लिए भावनात्मक अभिव्यक्ति नियंत्रण महत्वपूर्ण हो
- मॉडल के बीच चयन करते समय अपने लक्षित प्लेटफ़ॉर्म की प्रदर्शन क्षमताओं पर विचार करें
- अपने विशिष्ट उपयोग के मामले के लिए सर्वोत्तम संतुलन खोजने के लिए विभिन्न अनुकूलन स्तरों का परीक्षण करें
TTS संगतता
| मॉडल प्रकार | स्थानीय TTS समर्थन (Runtime Text To Speech के माध्यम से) | बाहरी TTS समर्थन | नोट्स |
|---|---|---|---|
| मानक मॉडल | ✅ पूर्ण समर्थन | ✅ पूर्ण समर्थन | सभी TTS विकल्पों के साथ संगत |
| यथार्थवादी मॉडल | ❌ सीमित समर्थन | ✅ पूर्ण समर्थन | ONNX रनटाइम स्थानीय TTS के साथ संघर्ष करता है |
| मूड-सक्षम यथार्थवादी मॉडल | ✅ पूर्ण समर्थन | ✅ पूर्ण समर्थन | सभी TTS विकल्पों के साथ संगत |
समस्या निवारण
सामान्य समस्याएं
यथार्थवादी मॉडल के लिए जनरेटर पुनर्निर्माण: यथार्थवादी मॉडल के साथ विश्वसनीय और सुसंगत संचालन के लिए, निष्क्रियता की अवधि के बाद नया ऑडियो डेटा फीड करना चाहते हैं तो हर बार जनरेटर को फिर से बनाने की सिफारिश की जाती है। यह ONNX रनटाइम व्यवहार के कारण है जो चुप्पी की अवधि के बाद जनरेटर का पुन: उपयोग करने पर लिप सिंक काम करना बंद कर सकता है।
स्थानीय TTS संगतता: Runtime Text To Speech प्लगइन द्वारा प्रदान किया गया स्थानीय TTS वर्तमान में ONNX रनटाइम संघर्षों के कारण नियमित यथार्थवादी मॉडल के साथ समर्थित नहीं है। हालाँकि, यह मानक मॉडल और मूड-सक्षम यथार्थवादी मॉडल दोनों के साथ पूरी तरह से संगत है। यदि आपको विशेष रूप से TTS कार्यक्षमता के साथ नियमित यथार्थवादी मॉडल की आवश्यकता है तो बाहरी TTS सेवाओं का उपयोग करें।
लिप सिंक प्रतिक्रियाशीलता में गिरावट: यदि आप अनुभव करते हैं कि Streaming Sound Wave या Capturable Sound Wave का उपयोग करते समय लिप सिंक समय के साथ कम प्रतिक्रियाशील हो जाता है, तो यह मेमोरी संचय के कारण हो सकता है। डिफ़ॉल्ट रूप से, नया ऑडियो जोड़े जाने पर हर बार मेमोरी को पुनः आवंटित किया जाता है। इस समस्या को रोकने के लिए, संचित मेमोरी को मुक्त करने के लिए ReleaseMemory फ़ंक्शन को समय-समय पर कॉल करें, जैसे हर 30 सेकंड या उसके आसपास।
प्रदर्शन अनुकूलन:
- अपनी प्रदर्शन आवश्यकताओं के आधार पर यथार्थवादी मॉडल के लिए प्रसंस्करण चंक आकार समायोजित करें
- अपने लक्षित हार्डवेयर के लिए उपयुक्त थ्रेड काउंट का उपयोग करें
- मूड-सक्षम मॉडल के लिए Mouth Only आउटपुट प्रकार का उपयोग करने पर विचार करें जब पूर्ण चेहरे एनीमेशन की आवश्यकता न हो