अवलोकन

रनटाइम टेक्स्ट टू स्पीच एक प्लगइन है जो रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म टेक्स्ट-टू-स्पीच सिंथेसिस को सक्षम बनाता है। यह 47 भाषाओं, 900 से अधिक आवाज़ों, और 170 आवाज़ गुणों का समर्थन करता है, और अब कोकोरो की सुविधा प्रदान करता है, जो स्टूडियो-गुणवत्ता आउटपुट वाला एक ओपन-सोर्स आवाज़ मॉडल परिवार है। यह प्लगइन तेज़, हल्का है, और गेम्स, ऐप्स और प्रोजेक्ट्स के लिए आदर्श है जिन्हें प्राकृतिक लगने वाली वाक् की आवश्यकता होती है।
वर्तमान में, प्लगइन निम्नलिखित प्लेटफ़ॉर्म का समर्थन करता है: Windows, Linux, Mac, Android (जिसमें Meta Quest शामिल है), और iOS।
📹 इसे कार्रवाई में देखें
YouTube डेमो देखें या सामान्य आवाज़ के नमूने Piper Samples पर परखें।
कोकोरो
यह प्लगइन कोकोरो आवाज़ मॉडल (कोकोरो v1.1 सहित) का भी समर्थन करता है - हाल ही में Hugging Face पर प्रकाशित उच्च-गुणवत्ता वाले ओपन-सोर्स TTS आर्किटेक्चर।
- 8 भाषाओं में 151 उच्च-गुणवत्ता वाले मॉडल:
🇺🇸 अंग्रेज़ी (US) • 🇬🇧 अंग्रेज़ी (UK) • 🇨🇳 सरलीकृत चीनी • 🇪🇸 स्पेनिश • 🇧🇷 पुर्तगाली • 🇮🇳 हिंदी • 🇫🇷 फ़्रेंच • 🇮🇹 इतालवी - लाइव पूर्वावलोकन उपलब्ध: कोकोरो आवाज़ें परखें
कोकोरो आवाज़ मॉडल वर्तमान में आज उपलब्ध उच्चतम-गुणवत्ता वाले ओपन-सोर्स TTS समाधानों में से हैं।
प्रमुख विशेषताएँ
- पूर्ण ऑफ़लाइन सिंथेसिस: इंटरनेट कनेक्शन की आवश्यकता नहीं
- एकाधिक सिंथेसिस मोड:
- नियमित सिंथेसिस: पूरे टेक्स्ट के लिए संपूर्ण ऑडियो जनरेट करें
- स्ट्रीमिंग सिंथेसिस: जैसे-जैसे ऑडियो चंक जनरेट होते हैं, उन्हें रियल-टाइम में प्रोसेस करें
- रद्दीकरण समर्थन: किसी भी समय चल रहे सिंथेसिस ऑपरेशन को बाधित करें
- क्रॉस-प्लेटफ़ॉर्म संगतता: सभी प्रमुख प्लेटफ़ॉर्म पर काम करता है
- ब्लूप्रिंट और C++ समर्थन: दोनों वातावरणों में पूर्ण API पहुँच
स्थापना
आरंभ करने के लिए, पहली बार चलाने पर प्लगइन सेटिंग्स के माध्यम से आवाज़ मॉडल इंस्टॉल करें। स्थापना के बाद, आप अपने प्रोजेक्ट में प्लगइन का उपयोग शुरू कर सकते हैं। विस्तृत निर्देशों के लिए, प्लगइन का उपयोग कैसे करें पृष्ठ देखें।
प्लगइन विवरण
यह प्लगइन Piper, Kokoro, और ONNX Runtime लाइब्रेरीज़ का उपयोग करके रियल-टाइम टेक्स्ट-टू-स्पीच सिंथेसिस प्रदान करता है। यह प्लगइन आपको एडिटर के माध्यम से एकाधिक आवाज़ मॉडल डाउनलोड और प्रबंधित करने की अनुमति देता है, जिन्हें बाद में आपके प्रोजेक्ट के साथ पैकेज किया जा सकता है।
मुख्य कार्यक्षमता में टेक्स्ट इनपुट प्रोसेसिंग और सिंथेसिस के लिए आवाज़ मॉडल चयन शामिल है। कुछ आवाज़ मॉडल एकाधिक स्पीकर का समर्थन करते हैं - उदाहरण के लिए, अंग्रेज़ी LibriTTS में 900 से अधिक अलग-अलग स्पीकर शामिल हैं, जर्मन Thorsten Emotional में 7 स्पीकर हैं, आदि।
आउटपुट संबंधित सैंपल रेट और चैनलों की संख्या के साथ PCM ऑडियो डेटा (फ़्लोट फ़ॉर्मेट में) है। इस डेटा को दो तरीकों से प्रोसेस किया जा सकता है:
- नियमित सिंथेसिस: सिंथेसिस पूरा होने पर संपूर्ण ऑडियो डेटा प्राप्त करें
- स्ट्रीमिंग सिंथेसिस: जैसे-जैसे ऑडियो डेटा चंक जनरेट होते हैं, उन्हें चंक में प्राप्त करें, जो रियल-टाइम प्रोसेसिंग की अनुमति देता है
इस कच्चे ऑडियो डेटा को एक बजने योग्य साउंड वेव में बदलने के लिए आमतौर पर रनटाइम ऑडियो इम्पोर्टर प्लगइन की आवश्यकता होती है, जो नियमित और स्ट्रीमिंग दोनों प्लेबैक क्षमताएँ प्रदान करता है।
अतिरिक्त संसाधन
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- Discord सपोर्ट सर्वर
- वीडियो ट्यूटोरियल
- प्लगइन सपोर्ट और कस्टम डेवलपमेंट: solutions@georgy.dev (टीमों और संगठनों के लिए अनुरूप समाधान)