مشاريع العرض التوضيحي

لمساعدتك على البدء بسرعة مع Runtime MetaHuman Lip Sync، يتوفر مشروعان تجريبيان جاهزان للاستخدام. كلاهما مبنيان باستخدام Unreal Engine 5.6+، وهما Blueprint-only، ويعملان عبر منصات متعددة على Windows، Mac، Linux، iOS، Android، والمنصات المبنية على Android (بما في ذلك Meta Quest).

مشاريع العرض التوضيحي المتاحة

AI Conversational NPC
عرض توضيحي أساسي لمزامنة الشفاه

سير عمل محادثة كامل لشخصية غير قابلة للعب مدعومة بالذكاء الاصطناعي** يجمع بين التعرف على الكلام، وروبوت محادثة ذكي (LLM)، وتحويل النص إلى كلام، وتشغيل الصوت مع مزامنة الشفاه في الوقت الفعلي - جميعها تعمل معًا في مشروع واحد.

نظرة عامة على خط الأنابيب

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

مقاطع الفيديو

معاينة سريعة (~30 ثانية)

عرض موجز للعرض التوضيحي أثناء التشغيل.

شرح تفصيلي كامل

شرح تفصيلي يغطي الإعداد والتهيئة وخط الأنابيب الكامل للمحادثة.

التنزيلات

المكونات الإضافية المطلوبة والاختيارية

المشروع التجريبي معياري - تحتاج فقط إلى المكونات الإضافية للمزودين الذين ترغب في استخدامهم.

المكون الإضافي	الغرض	مطلوب؟
Runtime MetaHuman Lip Sync	تحريك مزامنة الشفاه	✅ دائمًا
Runtime Audio Importer	التقاط الصوت ومعالجته	✅ دائمًا
Runtime Speech Recognizer	التعرف على الكلام دون اتصال (whisper.cpp)	✅ دائمًا
Runtime AI Chatbot Integrator	نماذج اللغة الكبيرة الخارجية (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) و/أو تحويل النص إلى كلام خارجي (OpenAI, ElevenLabs)	🔶 اختياري
Runtime Local LLM	استدلال نموذج اللغة الكبيرة المحلي عبر llama.cpp (Llama, Mistral, Gemma، إلخ، نماذج GGUF)	🔶 اختياري
Runtime Text To Speech	تحويل النص إلى كلام محلي عبر Piper و Kokoro	🔶 اختياري

المكونات الإضافية الاختيارية - متطلبات المزودين

بينما كل مكون إضافي أعلاه اختياري بشكل فردي، تحتاج على الأقل إلى مزود واحد لنموذج اللغة الكبيرة و مزود واحد لتحويل النص إلى كلام لكي يعمل العرض التوضيحي. امزج وطابق بحرية (مثلاً نموذج لغة كبير محلي + ElevenLabs TTS، أو OpenAI LLM + TTS محلي).

البنية المعيارية

في مجلد Content ستجد مجلد Modules يحتوي على ثلاثة مجلدات فرعية:

Content/
└── Modules/
    ├── RuntimeAIChatbotIntegrator/   ← External LLMs and/or external TTS
    ├── RuntimeLocalLLM/              ← Local LLM via llama.cpp
    └── RuntimeTextToSpeech/          ← Local TTS via Piper/Kokoro

إذا لم تحصل على أي (أو بعض) من المكونات الإضافية الاختيارية، فما عليك سوى حذف المجلد (المجلدات) المقابلة. لا تشير الأصول الأساسية للمشروع التجريبي (مثيل اللعبة، وعناصر واجهة المستخدم، وما إلى ذلك) إلى هذه الوحدات مباشرة، لذا لن يؤدي حذفها إلى حدوث أخطاء في مراجع الأصول. ستخفي واجهة التكوين تلقائيًا أي مزود تكون مجلداته مفقودة.

ملاحظة

تنطبق هذه الوحداتية فقط على مزودي LLM و TTS. التعرف على الكلام (Runtime Speech Recognizer) و مزامنة الشفاه (Runtime MetaHuman Lip Sync) هما جزء من المشروع التجريبي الأساسي ومطلوبان دائمًا.

هيكل مجلد الوحدات

warning

عند التشغيل لأول مرة، قد يسأل Unreal عما إذا كان سيتم تعطيل أي مكونات إضافية اختيارية مفقودة - انقر فوق نعم. تأكد من أنك قمت أيضًا بحذف مجلد Content/Modules/ المقابل (انظر أعلاه).

تخطيط المشروع التجريبي

واجهة المستخدم لأغراض العرض التوضيحي

تم بناء واجهة المستخدم الموضحة أدناه بالكامل باستخدام UMG (Unreal Motion Graphics) وهي مخصصة فقط لتوضيح خط الأنابيب - التعرف على الكلام → LLM → TTS → مزامنة الشفاه. أنت حر في إعادة تصميمها أو استبدالها لتتناسب مع التصميم المرئي للعبتك أو نظام التحكم أو المنصة (VR/AR، الجوال، وحدة التحكم، إلخ). إذا لم تكن بعض الأدوات مطلوبة في حالتك، فيمكنك أيضًا إخفاؤها ببساطة (مثلاً، تعيين رؤيتها إلى مطوية أو مخفية).

نظرة عامة موضحة على الشاشة الرئيسية للمشروع التجريبي

المنطقة	ما يوجد هناك
المركز	شخصية MetaHuman.
الجانب الأيسر	أربعة أزرار تكوين (التعرف على الكلام، روبوت الدردشة الذكي، تحويل النص إلى كلام، الرسوم المتحركة)، موصوفة بالتفصيل أدناه.
الوسط السفلي	زر بدء التسجيل. انقر عليه لبدء محادثة صوتية: يتم التقاط الميكروفون الخاص بك، ونسخ الكلام، وإرساله إلى LLM، ويتم توليف الرد عبر TTS، ويتم تشغيله مع مزامنة الشفاه، كل ذلك بدون استخدام اليدين.
المركز الأيمن	أداة سجل المحادثة تعرض الحوار الكامل بينك وبين الذكاء الاصطناعي (رسائل المستخدم والمساعد). تتضمن أيضًا حقل إدخال نصي، بحيث يمكنك كتابة الرسائل مباشرة دون استخدام التعرف على الكلام، وهو مفيد للاختبار، أو لإمكانية الوصول، أو عند عدم توفر ميكروفون.

تلميح

يمكنك مزج كلا وضعي الإدخال بحرية في نفس الجلسة - تحدث ببعض الرسائل، واكتب البعض الآخر.

أزرار التكوين

تفتح أزرار التكوين الأربعة الموجودة على اليسار لوحات مخصصة لكل جزء من خط الأنابيب:

1. تكوين التعرف على الكلام

تكوين كيفية التقاط صوت المستخدم ونسخه:

اختر اللغة
اضبط معلمات التعرف على الكلام (إعدادات نموذج Whisper)
تكوين AEC (إلغاء الصدى الصوتي)
تكوين VAD (اكتشاف النشاط الصوتي)

شاشة تكوين التعرف على الكلام

2. تكوين روبوت الدردشة الذكي

اختر مزود LLM الخاص بك وقم بتكوينه:

اختر المزود (Runtime AI Chatbot Integrator أو Runtime Local LLM)
بالنسبة للمزودين الخارجيين: رمز المصادقة، اسم النموذج، إلخ.
بالنسبة لـ LLM المحلي: اختر نموذج GGUF، واضبط حجم السياق، ومعلمات الاستدلال الأخرى. يمكنك أيضًا تنزيل نموذج GGUF الخاص بك أثناء وقت التشغيل مباشرة من العرض التوضيحي (مثلاً عبر رابط URL)، واستخدامه فورًا دون إعادة بناء المشروع.

تلميح

يُظهر مربع التحرير والسرد للمزود فقط المزودين الذين تكون مجلدات وحدات المكونات الإضافية الخاصة بهم موجودة في Content/Modules/.

تكوين روبوت الدردشة الذكي - Runtime AI Chatbot Integrator (LLM خارجي)

تكوين روبوت الدردشة الذكي - Runtime Local LLM (GGUF محلي)

3. تكوين تحويل النص إلى كلام

اختر مزود TTS الخاص بك وقم بتكوين الأصوات/النماذج:

اختر المزود (Runtime AI Chatbot Integrator لـ OpenAI/ElevenLabs، أو Runtime Text To Speech لـ Piper/Kokoro المحليين)
اختر الصوت/النموذج
اضبط المعلمات الخاصة بالمزود

تكوين TTS - Runtime AI Chatbot Integrator (TTS خارجي)

تكوين TTS - Runtime Local Text To Speech (Piper/Kokoro المحلي)

4. تكوين الرسوم المتحركة

التحكم في الجوانب المرئية لشخصية NPC الذكية الخاصة بك:

اختر من بين 3 شخصيات MetaHuman تم تنزيلها مسبقًا (Aera، Ada، Orlando)
اختر نموذج مزامنة الشفاه (قياسي أو واقعي)
اختر نوع نموذج مزامنة الشفاه - عالي التحسين، شبه محسّن، أو أصلي (انظر نوع النموذج)
اضبط حجم جزء المعالجة - يتحكم في عدد مرات تشغيل استدلال مزامنة الشفاه (انظر حجم جزء المعالجة)
اختر رسوم متحركة خاملة لتشغيلها على MetaHuman أثناء المحادثة

شاشة تكوين الرسوم المتحركة

التكوين المسبق للعرض التوضيحي في المحرر

عند العمل مع النسخة المصدرية، يمكنك ملء الإعدادات الافتراضية مسبقًا مباشرة في المحرر بحيث لا تحتاج إلى إعادة إدخال القيم في كل مرة تشغيل:

المحتوى	الموقع
الإعدادات العامة (نموذج مزامنة الشفاه، الرسوم المتحركة الخاملة، فئة الشخصية، التعرف على الكلام، إلخ)	`Content/LipSyncSTSGameInstance`
إعدادات LLM الخارجي / TTS الخارجي (Runtime AI Chatbot Integrator)	`Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider`
إعدادات LLM المحلي (Runtime Local LLM)	`Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider`
إعدادات TTS المحلي (Runtime Text To Speech)	`Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider`

ملاحظات عبر المنصات

جميع المكونات الإضافية المستخدمة في العرض التوضيحي تدعم أنظمة Windows، Mac، Linux، iOS، Android والأنظمة القائمة على Android (بما في ذلك Meta Quest)، لذا يعمل المشروع التجريبي على جميع هذه الأنظمة أيضًا.

بالنسبة للأجهزة الأضعف (الجوال، VR المستقل)، قد ترغب في:

استخدام نموذج مزامنة الشفاه القياسي بدلاً من الواقعي - راجع مقارنة النماذج
التبديل إلى نوع النموذج عالي التحسين
زيادة حجم جزء المعالجة لتقليل حمل وحدة المعالجة المركزية
اختيار نماذج LLM / TTS أصغر

راجع التكوين الخاص بالمنصة للحصول على خطوات إعداد إضافية على أنظمة Android، iOS، Mac، و Linux.

جلب MetaHuman الخاص بك

يأتي المشروع التجريبي مع ثلاث شخصيات MetaHuman نموذجية (Aera، Ada، Orlando)، ولكن يمكنك استيراد MetaHuman الخاص بك واستخدامه في العرض التوضيحي.

📺 فيديو تعليمي: إضافة شخصية MetaHuman مخصصة إلى المشروع التجريبي

ملاحظة

يدعم المكون الإضافي Runtime MetaHuman Lip Sync نفسه العديد من أنظمة الشخصيات الأخرى بخلاف MetaHumans (الشخصيات القائمة على ARKit، Daz Genesis 8/9، Reallusion CC3/CC4، Mixamo، ReadyPlayerMe، إلخ - راجع دليل إعداد الشخصية المخصصة).

مشروع تجريبي أبسط يركز بشكل خالص على ميزة مزامنة الشفاه نفسها، بدون سير عمل المحادثة الذكية الكامل. مناسب إذا كنت تريد فقط رؤية مزامنة الشفاه أثناء العمل مع مصادر صوتية متنوعة.

فيديو مميز

التنزيلات

ما يتضمنه

يعرض هذا العرض التوضيحي سير عمل مزامنة الشفاه الأساسية:

إدخال الميكروفون - مزامنة شفاه في الوقت الفعلي من الصوت المباشر
تشغيل ملف صوتي - مزامنة شفاه من ملفات صوتية مستوردة
تحويل النص إلى كلام - مزامنة شفاه مدفوعة بالكلام المركب

المكونات الإضافية المطلوبة والاختيارية

المكون الإضافي	الغرض	مطلوب؟
Runtime MetaHuman Lip Sync	رسوم متحركة لمزامنة الشفاه	✅ مطلوب
Runtime Audio Importer	استيراد والتقاط الصوت	✅ مطلوب
Runtime Text To Speech	TTS محلي لمشهد عرض TTS	🔶 اختياري
Runtime AI Chatbot Integrator	مزودو TTS الخارجيون (OpenAI، ElevenLabs)	🔶 اختياري

ملاحظات حول نموذج مزامنة الشفاه القياسي

إذا كنت تخطط لاستخدام النموذج القياسي (بدلاً من الواقعي) في أي من المشروعين التجريبيين، فستحتاج إلى تثبيت الملحق القياسي لمزامنة الشفاه. راجع ملحق النموذج القياسي للحصول على تعليمات التثبيت.

هل تحتاج إلى مساعدة؟

إذا واجهت أي مشكلات في إعداد المشاريع التجريبية أو تشغيلها، فلا تتردد في التواصل:

Join our Discord

online · support

لطلبات التطوير المخصصة (مثل تمديد العرض التجريبي بمنطقك الخاص، تكييفه لمنصة معينة أو خط أنابيب شخصيات)، اتصل بـ solutions@georgy.dev.