نظرة عامة

Runtime Text To Speech هو إضافة تُمكّن من توليف الكلام من النص في الوقت الفعلي، دون اتصال بالإنترنت، وعبر المنصات. تدعم 47 لغة، وأكثر من 900 صوت، و170 جودة صوتية، وتضم الآن Kokoro، وهي عائلة نماذج صوتية مفتوحة المصدر ذات إخراج بجودة الاستوديو. الإضافة سريعة، خفيفة الوزن، ومثالية للألعاب، والتطبيقات، والمشاريع التي تتطلب كلامًا طبيعيًا.

حاليًا، تدعم الإضافة المنصات التالية: Windows، وLinux، وMac، وAndroid (بما في ذلك Meta Quest)، وiOS.

📹 شاهدها في العمل
شاهد عرض YouTube التجريبي أو اختبر عينات صوتية عامة على Piper Samples.

Kokoro

تدعم الإضافة أيضًا نماذج الأصوات Kokoro (بما في ذلك Kokoro v1.1) - وهي بنيات توليف كلام من النص مفتوحة المصدر عالية الجودة نُشرت مؤخرًا على Hugging Face.

151 نموذجًا عالي الجودة عبر 8 لغات:
🇺🇸 الإنجليزية (الولايات المتحدة) • 🇬🇧 الإنجليزية (المملكة المتحدة) • 🇨🇳 الصينية المبسطة • 🇪🇸 الإسبانية • 🇧🇷 البرتغالية • 🇮🇳 الهندية • 🇫🇷 الفرنسية • 🇮🇹 الإيطالية
معاينة مباشرة متاحة: اختبر أصوات Kokoro

لماذا Kokoro؟

نماذج الأصوات Kokoro هي حاليًا من بين أعلى حلول توليف الكلام من النص مفتوحة المصدر جودةً المتاحة اليوم.

الميزات الرئيسية

توليف كامل دون اتصال بالإنترنت: لا حاجة لاتصال بالإنترنت
أنواع توليف متعددة:
- التوليف العادي: توليد الصوت الكامل للنص بأكمله
- التوليف المتدفق: معالجة مقاطع الصوت في الوقت الفعلي أثناء توليدها
دعم الإلغاء: إيقاف عمليات التوليف الجارية في أي وقت
التوافق عبر المنصات: يعمل على جميع المنصات الرئيسية
دعم Blueprint و C++: وصول كامل إلى واجهة برمجة التطبيقات في كلا البيئتين

التثبيت

للبدء، قم بتثبيت نماذج الأصوات عبر إعدادات الإضافة في أول تشغيل. بعد التثبيت، يمكنك البدء في استخدام الإضافة في مشروعك. للحصول على تعليمات مفصلة، راجع صفحة كيفية استخدام الإضافة.

تفاصيل الإضافة

توفر هذه الإضافة توليف الكلام من النص في الوقت الفعلي باستخدام مكتبات Piper، وKokoro، وONNX Runtime. تسمح لك الإضافة بتنزيل وإدارة نماذج أصوات متعددة عبر المحرر، والتي يمكن بعد ذلك تضمينها مع مشروعك.

تتكون الوظيفة الأساسية من معالجة إدخال النص واختيار نموذج الصوت للتوليف. بعض نماذج الأصوات تدعم متحدثين متعددين - على سبيل المثال، English LibriTTS يتضمن أكثر من 900 متحدث مختلف، German Thorsten Emotional لديه 7 متحدثين، إلخ.

الإخراج هو بيانات صوت PCM (بتنسيق float) مع معدل العينات وعدد القنوات المقابل. يمكن معالجة هذه البيانات بطريقتين:

التوليف العادي: استقبال بيانات الصوت الكاملة عند انتهاء التوليف
التوليف المتدفق: استقبال بيانات الصوت على شكل مقاطع أثناء توليدها، مما يسمح بالمعالجة في الوقت الفعلي

تحويل بيانات الصوت الخام هذه إلى موجة صوتية قابلة للتشغيل يتطلب عادةً إضافة Runtime Audio Importer، والتي توفر إمكانيات تشغيل عادية ومتدفقة.

موارد إضافية

احصل عليها على Fab
موقع المنتج
تنزيل العرض التجريبي (Windows)
خادم الدعم على Discord
فيديو تعليمي
دعم الإضافة والتطوير المخصص: solutions@georgy.dev (حلول مخصصة للفرق والمنظمات)

Kokoro​

الميزات الرئيسية​

التثبيت​

تفاصيل الإضافة​

موارد إضافية​

Kokoro

الميزات الرئيسية

التثبيت

تفاصيل الإضافة

موارد إضافية