انتقل إلى المحتوى الرئيسي

نظرة عامة 

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync هي إضافة تمكّن من مزامنة الشفاه في الوقت الفعلي، وبدون اتصال بالإنترنت، وعبر المنصات المختلفة لكل من شخصيات MetaHuman والشخصيات المخصصة. تتيح لك تحريك شفاه الشخصية استجابةً لإدخال صوتي من مصادر متنوعة، بما في ذلك:

تولد الإضافة داخليًا الفيزيمات (التمثيلات البصرية للفونيمات) استنادًا إلى إدخال الصوت. نظرًا لأنها تعمل مباشرة مع البيانات الصوتية بدلاً من النص، فإن الإضافة تدعم الإدخال متعدد اللغات بما في ذلك على سبيل المثال لا الحصر الإنجليزية والإسبانية والفرنسية والألمانية واليابانية والصينية والكورية والروسية والإيطالية والبرتغالية والعربية والهندية. حرفيًا، أي لغة مدعومة حيث يتم إنشاء مزامنة الشفاه من فونيمات الصوت بدلاً من معالجة النصوص الخاصة باللغة.

ينتج Standard Model 14 فيزيمًا ويقوم بتحريك مزامنة الشفاه باستخدام أصول وضعية محددة مسبقًا. وعلى النقيض، فإن Realistic Models (حصريًا للشخصيات القائمة على MetaHuman وARKit) تولد 81 تغييرًا في التحكم الوجهي دون الاعتماد على أصول وضعية محددة مسبقًا، مما ينتج عنه رسومًا متحركة للوجه أكثر واقعية بشكل ملحوظ.

توافق الشخصيات

على الرغم من اسمها، تعمل Runtime MetaHuman Lip Sync مع مجموعة واسعة من الشخصيات تتجاوز مجرد شخصيات MetaHuman:

أنظمة الشخصيات التجارية الشائعة

  • شخصيات Daz Genesis 8/9
  • شخصيات Reallusion Character Creator 3/4 (CC3/CC4)
  • شخصيات Mixamo
  • شخصيات ReadyPlayerMe الافتراضية

دعم معايير الرسوم المتحركة

  • أنظمة تشويه المزج القائمة على FACS
  • معيار Apple ARKit لتشويه المزج
  • مجموعات الفونيمات لـ Preston Blair
  • أنظمة الفونيم في 3ds Max
  • أي شخصية ذات أهداف مورف مخصصة لتعبيرات الوجه

للحصول على تعليمات مفصلة حول استخدام الإضافة مع الشخصيات غير MetaHuman، راجع دليل إعداد الشخصيات المخصصة.

معاينة الرسوم المتحركة

شاهد هذه الرسوم المتحركة القصيرة لترى جودة رسوم مزامنة الشفاه التي تنتجها الإضافة عبر أنواع الشخصيات والنماذج المختلفة:

نموذج واقعي مع شخصية MetaHuman
النموذج القياسي مع شخصية MetaHuman
النموذج القياسي مع شخصية مخصصة
Standard model مع شخصية مخصصة

الميزات الرئيسية

  • مزامنة الشفاه في الوقت الفعلي من إدخال الميكروفون
  • دعم معالجة الصوت دون اتصال
  • توافق عبر الأنظمة الأساسية مع دعم منصة خاص بالنموذج
  • دعم أنظمة شخصيات متعددة ومعايير الرسوم المتحركة
  • ربط مرن للفيسيمات (viseme) للشخصيات المخصصة
  • دعم عالمي للغات - يعمل مع أي لغة منطوقة من خلال تحليل الصوت
  • رسوم متحركة وجهية تدرك الحالة المزاجية لتحسين التعبيرية
  • أنواع إخراج قابلة للتكوين (الوجه بالكامل أو التحكم بالفم فقط)

نماذج مزامنة الشفاه

يقدم الملحق نماذج متعددة لمزامنة الشفاه لتناسب احتياجات المشروع المختلفة:

يوفر نموذج Standard Model أداءً فعالاً ومتوافقًا مع الأنظمة الأساسية مع توافق واسع مع الشخصيات:

  • يعمل مع MetaHumans وجميع أنواع الشخصيات المخصصة
  • مُحسَّن للأداء في الوقت الفعلي
  • متطلبات موارد أقل
  • دعم المنصة: Windows, Android, الأنظمة القائمة على Android (بما في ذلك Meta Quest)
مطلوب ملحق إضافي

لاستخدام Standard Model, تحتاج إلى تثبيت ملحق إضافي. راجع قسم المتطلبات الأساسية للحصول على تعليمات التثبيت.

يمكنك اختيار النموذج المناسب بناءً على متطلبات مشروعك للأداء وتوافق الشخصيات والجودة البصرية والمنصة المستهدفة واحتياجات الميزات.

كيف يعمل

يعالج الملحق إدخال الصوت بالطريقة التالية:

  1. يتم استلام البيانات الصوتية بصيغة PCM عائمة مع قنوات و معدل عينة محددين
  2. يقوم الملحق بمعالجة الصوت لتوليد بيانات التحكم الوجهي أو فيسيمات حسب النموذج
  3. بالنسبة للنماذج التي تدعم الحالة المزاجية، يتم تطبيق السياق العاطفي على الرسوم المتحركة الوجهية
  4. تقود بيانات الرسوم المتحركة حركات وجه الشخصية في الوقت الفعلي

بنية الأداء

يستخدم Runtime MetaHuman Lip Sync الاستدلال عبر وحدة المعالجة المركزية فقط لتقديم نتائج مزامنة شفاه متسقة ومنخفضة التأخير مناسبة للتطبيقات في الوقت الفعلي. بشكل افتراضي، يقوم الملحق بمعالجة مزامنة الشفاه كل 10 مللي ثانية (قابل للتعديل - راجع تكوين الملحق لجميع الإعدادات المتاحة بما في ذلك حجم جزء المعالجة وعدد الخيوط ومعلمات الأداء الأخرى).

نظرة عامة على بنية النموذج

تستخدم نماذج مزامنة الشفاه شبكة عصبية مدمجة قائمة على Transformer تعالج الصوت من خلال تحليل المخطط الطيفي (mel-spectrogram). تم تصميم هذه البنية الخفيفة خصيصًا للأداء في الوقت الفعلي مع استدلال فعال عبر وحدة المعالجة المركزية وبصمة ذاكرة صغيرة.

لماذا الاستدلال عبر وحدة المعالجة المركزية؟

بالنسبة لعمليات الاستدلال الصغيرة والمتكررة مثل مزامنة الشفاه في الوقت الفعلي، توفر معالجة وحدة المعالجة المركزية خصائص تأخير أفضل من وحدة معالجة الرسوميات (GPU). عند حجم دفعة 1 مع فترات استدلال 10-100 مللي ثانية، غالبًا ما يتجاوز الحمل الإضافي لوحدة معالجة الرسوميات من عمليات النقل عبر PCIe وإطلاق النواة وقت الحساب الفعلي. بالإضافة إلى ذلك، في محركات الألعاب، تكون وحدة معالجة الرسوميات مشبعة بالفعل بالعرض والتظليل والفيزياء، مما يخلق تنافسًا على الموارد ويسبب ارتفاعات غير متوقعة في التأخير.

توافق الأجهزة

يعمل الملحق بكفاءة على معظم وحدات المعالجة المركزية متوسطة المستوى والأعلى دون الحاجة إلى أجهزة رسوميات مخصصة، مما يوفر أداءً في الوقت الفعلي عبر منصات سطح المكتب والهواتف المحمولة والواقع الافتراضي. بالنسبة للأجهزة الأضعف، يمكنك ضبط نوع النموذج إلى Semi-Optimized أو Highly Optimized، أو زيادة حجم جزء المعالجة للحفاظ على الأداء في الوقت الفعلي مع استجابة أقل قليلاً.

بداية سريعة

إليك إعدادًا أساسيًا لتمكين مزامنة الشفاه على شخصيتك:

  1. بالنسبة لشخصيات MetaHuman، اتبع دليل الإعداد
  2. بالنسبة للشخصيات المخصصة، اتبع دليل إعداد الشخصيات المخصصة
  3. اختر نموذج مزامنة الشفاه المفضل لديك وقم بتكوينه
  4. قم بإعداد معالجة إدخال الصوت في الـ Blueprint الخاص بك
  5. قم بتوصيل عقدة مزامنة الشفاه المناسبة في Animation Blueprint
  6. شغّل الصوت وشاهد شخصيتك تتحدث بعاطفة!

موارد إضافية

📦 التنزيلات والروابط

المشاريع التوضيحية:

يتوفر مشروعان توضيحيان جاهزان للاستخدام - راجع صفحة المشاريع التوضيحية للحصول على التفاصيل الكاملة والتنزيلات والجولات الإرشادية:

كلا العرضين التوضيحيين متعددي الأنظمة الأساسية (Windows، Mac، Linux، iOS، Android، Meta Quest) ويتم تقديمهما كبنى مجمعة ومشاريع مصدرية كاملة لـ UE 5.6+.

🎥 دروس الفيديو

العروض التوضيحية المميزة:

دروس نموذج Realistic Model (عالية الجودة):

دروس نموذج Standard Model:

الإعداد العام:

💬 الدعم

Join our Discord
online · support