نظرة عامة

Runtime MetaHuman Lip Sync هي إضافة تمكّن من مزامنة الشفاه في الوقت الفعلي، وبدون اتصال بالإنترنت، وعبر المنصات المختلفة لكل من شخصيات MetaHuman والشخصيات المخصصة. تتيح لك تحريك شفاه الشخصية استجابةً لإدخال صوتي من مصادر متنوعة، بما في ذلك:
- إدخال الميكروفون عبر Runtime Audio Importer's capturable sound wave
- كلام مركّب من Runtime Text To Speech أو Runtime AI Chatbot Integrator
- بيانات صوتية متدفقة أو مستوردة بتنسيقات متعددة عبر Runtime Audio Importer
- أي بيانات صوتية بتنسيق PCM عائم (مصفوفة من عينات الفاصلة العائمة)
تولد الإضافة داخليًا الفيزيمات (التمثيلات البصرية للفونيمات) استنادًا إلى إدخال الصوت. نظرًا لأنها تعمل مباشرة مع البيانات الصوتية بدلاً من النص، فإن الإضافة تدعم الإدخال متعدد اللغات بما في ذلك على سبيل المثال لا الحصر الإنجليزية والإسبانية والفرنسية والألمانية واليابانية والصينية والكورية والروسية والإيطالية والبرتغالية والعربية والهندية. حرفيًا، أي لغة مدعومة حيث يتم إنشاء مزامنة الشفاه من فونيمات الصوت بدلاً من معالجة النصوص الخاصة باللغة.
ينتج Standard Model 14 فيزيمًا ويقوم بتحريك مزامنة الشفاه باستخدام أصول وضعية محددة مسبقًا. وعلى النقيض، فإن Realistic Models (حصريًا للشخصيات القائمة على MetaHuman وARKit) تولد 81 تغييرًا في التحكم الوجهي دون الاعتماد على أصول وضعية محددة مسبقًا، مما ينتج عنه رسومًا متحركة للوجه أكثر واقعية بشكل ملحوظ.
توافق الشخصيات
على الرغم من اسمها، تعمل Runtime MetaHuman Lip Sync مع مجموعة واسعة من الشخصيات تتجاوز مجرد شخصيات MetaHuman:
أنظمة الشخصيات التجارية الشائعة
- شخصيات Daz Genesis 8/9
- شخصيات Reallusion Character Creator 3/4 (CC3/CC4)
- شخصيات Mixamo
- شخصيات ReadyPlayerMe الافتراضية
دعم معايير الرسوم المتحركة
- أنظمة تشويه المزج القائمة على FACS
- معيار Apple ARKit لتشويه المزج
- مجموعات الفونيمات لـ Preston Blair
- أنظمة الفونيم في 3ds Max
- أي شخصية ذات أهداف مورف مخصصة لتعبيرات الوجه
للحصول على تعليمات مفصلة حول استخدام الإضافة مع الشخصيات غير MetaHuman، راجع دليل إعداد الشخصيات المخصصة.
معاينة الرسوم المتحركة
شاهد هذه الرسوم المتحركة القصيرة لترى جودة رسوم مزامنة الشفاه التي تنتجها الإضافة عبر أنواع الشخصيات والنماذج المختلفة:
الميزات الرئيسية
- مزامنة الشفاه في الوقت الفعلي من إدخال الميكروفون
- دعم معالجة الصوت دون اتصال
- توافق عبر الأنظمة الأساسية مع دعم منصة خاص بالنموذج
- دعم أنظمة شخصيات متعددة ومعايير الرسوم المتحركة
- ربط مرن للفيسيمات (viseme) للشخصيات المخصصة
- دعم عالمي للغات - يعمل مع أي لغة منطوقة من خلال تحليل الصوت
- رسوم متحركة وجهية تدرك الحالة المزاجية لتحسين التعبيرية
- أنواع إخراج قابلة للتكوين (الوجه بالكامل أو التحكم بالفم فقط)
نماذج مزامنة الشفاه
يقدم الملحق نماذج متعددة لمزامنة الشفاه لتناسب احتياجات المشروع المختلفة:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
يوفر نموذج Standard Model أداءً فعالاً ومتوافقًا مع الأنظمة الأساسية مع توافق واسع مع الشخصيات:
- يعمل مع MetaHumans وجميع أنواع الشخصيات المخصصة
- مُحسَّن للأداء في الوقت الفعلي
- متطلبات موارد أقل
- دعم المنصة: Windows, Android, الأنظمة القائمة على Android (بما في ذلك Meta Quest)
لاستخدام Standard Model, تحتاج إلى تثبيت ملحق إضافي. راجع قسم المتطلبات الأساسية للحصول على تعليمات التثبيت.
يوفر نموذج Realistic Model دقة بصرية محسنة خصيصًا لشخصيات MetaHuman:
- متوافق مع MetaHuman وشخصيات قائمة على ARKit مع رسوم متحركة وجهية متقدمة (81 عنصر تحكم وجهي)
- جودة بصرية أعلى مع حركات فم أكثر طبيعية
- متطلبات أداء أعلى قليلاً
- معالجة صوت متدفقة للتطبيقات في الوقت الفعلي
- مثالي للتجارب السينمائية والتفاعلات القريبة من الشخصيات
- ثلاثة مستويات تحسين: Original وSemi-Optimized وHighly Optimized
- مجموعات أهداف التحويل القابلة للتكوين (انظر اختيار مجموعة أهداف التحويل)
- دعم المنصة: Windows, Mac, iOS, Linux, Android, الأنظمة القائمة على Android (بما في ذلك Meta Quest)
يتم تضمين Realistic Model في الملحق الرئيسي ولا يتطلب أي ملحقات إضافية للاستخدام.
يوفر نموذج Mood-Enabled Realistic Model رسومًا متحركة وجهية تدرك المشاعر لشخصيات MetaHuman:
- متوافق مع MetaHuman وشخصيات قائمة على ARKit مع رسوم متحركة وجهية تستجيب للحالة المزاجية (81 عنصر تحكم وجهي)
- 12 نوعًا مختلفًا من الحالات المزاجية (Neutral وHappy وSad وConfident إلخ)
- شدة حالة مزاجية قابلة للتكوين (0.0 إلى 1.0)
- توقيت النظرة المستقبلية القابل للتعديل لتحسين المزامنة (20 مللي ثانية إلى 200 مللي ثانية)
- أنواع الإخراج القابلة للتحديد: تحكم الوجه بالكامل أو الفم فقط
- معالجة صوت متدفقة للتطبيقات في الوقت الفعلي
- مجموعات أهداف التحويل القابلة للتكوين (انظر اختيار مجموعة أهداف التحويل)
- دعم المنصة: Windows, Mac, iOS, Linux, Android, الأنظمة القائمة على Android (بما في ذلك Meta Quest)
يتم تضمين Mood-Enabled Realistic Model في الملحق الرئيسي ولا يتطلب أي ملحقات إضافية للاستخدام.
يمكنك اختيار النموذج المناسب بناءً على متطلبات مشروعك للأداء وتوافق الشخصيات والجودة البصرية والمنصة المستهدفة واحتياجات الميزات.
كيف يعمل
يعالج الملحق إدخال الصوت بالطريقة التالية:
- يتم استلام البيانات الصوتية بصيغة PCM عائمة مع قنوات و معدل عينة محددين
- يقوم الملحق بمعالجة الصوت لتوليد بيانات التحكم الوجهي أو فيسيمات حسب النموذج
- بالنسبة للنماذج التي تدعم الحالة المزاجية، يتم تطبيق السياق العاطفي على الرسوم المتحركة الوجهية
- تقود بيانات الرسوم المتحركة حركات وجه الشخصية في الوقت الفعلي
بنية الأداء
يستخدم Runtime MetaHuman Lip Sync الاستدلال عبر وحدة المعالجة المركزية فقط لتقديم نتائج مزامنة شفاه متسقة ومنخفضة التأخير مناسبة للتطبيقات في الوقت الفعلي. بشكل افتراضي، يقوم الملحق بمعالجة مزامنة الشفاه كل 10 مللي ثانية (قابل للتعديل - راجع تكوين الملحق لجميع الإعدادات المتاحة بما في ذلك حجم جزء المعالجة وعدد الخيوط ومعلمات الأداء الأخرى).
نظرة عامة على بنية النموذج
تستخدم نماذج مزامنة الشفاه شبكة عصبية مدمجة قائمة على Transformer تعالج الصوت من خلال تحليل المخطط الطيفي (mel-spectrogram). تم تصميم هذه البنية الخفيفة خصيصًا للأداء في الوقت الفعلي مع استدلال فعال عبر وحدة المعالجة المركزية وبصمة ذاكرة صغيرة.
لماذا الاستدلال عبر وحدة المعالجة المركزية؟
بالنسبة لعمليات الاستدلال الصغيرة والمتكررة مثل مزامنة الشفاه في الوقت الفعلي، توفر معالجة وحدة المعالجة المركزية خصائص تأخير أفضل من وحدة معالجة الرسوميات (GPU). عند حجم دفعة 1 مع فترات استدلال 10-100 مللي ثانية، غالبًا ما يتجاوز الحمل الإضافي لوحدة معالجة الرسوميات من عمليات النقل عبر PCIe وإطلاق النواة وقت الحساب الفعلي. بالإضافة إلى ذلك، في محركات الألعاب، تكون وحدة معالجة الرسوميات مشبعة بالفعل بالعرض والتظليل والفيزياء، مما يخلق تنافسًا على الموارد ويسبب ارتفاعات غير متوقعة في التأخير.
توافق الأجهزة
يعمل الملحق بكفاءة على معظم وحدات المعالجة المركزية متوسطة المستوى والأعلى دون الحاجة إلى أجهزة رسوميات مخصصة، مما يوفر أداءً في الوقت الفعلي عبر منصات سطح المكتب والهواتف المحمولة والواقع الافتراضي. بالنسبة للأجهزة الأضعف، يمكنك ضبط نوع النموذج إلى Semi-Optimized أو Highly Optimized، أو زيادة حجم جزء المعالجة للحفاظ على الأداء في الوقت الفعلي مع استجابة أقل قليلاً.
بداية سريعة
إليك إعدادًا أساسيًا لتمكين مزامنة الشفاه على شخصيتك:
- بالنسبة لشخصيات MetaHuman، اتبع دليل الإعداد
- بالنسبة للشخصيات المخصصة، اتبع دليل إعداد الشخصيات المخصصة
- اختر نموذج مزامنة الشفاه المفضل لديك وقم بتكوينه
- قم بإعداد معالجة إدخال الصوت في الـ Blueprint الخاص بك
- قم بتوصيل عقدة مزامنة الشفاه المناسبة في Animation Blueprint
- شغّل الصوت وشاهد شخصيتك تتحدث بعاطفة!
موارد إضافية
📦 التنزيلات والروابط
المشاريع التوضيحية:
يتوفر مشروعان توضيحيان جاهزان للاستخدام - راجع صفحة المشاريع التوضيحية للحصول على التفاصيل الكاملة والتنزيلات والجولات الإرشادية:
- سير عمل الشخصية غير القابلة للعب ذكية المحادثة الكاملة - التعرف على الكلام + روبوت محادثة LLM + تحويل النص إلى كلام + مزامنة الشفاه
- عرض توضيحي أساسي لمزامنة الشفاه - إدخال الميكروفون وملفات الصوت وتحويل النص إلى كلام
كلا العرضين التوضيحيين متعددي الأنظمة الأساسية (Windows، Mac، Linux، iOS، Android، Meta Quest) ويتم تقديمهما كبنى مجمعة ومشاريع مصدرية كاملة لـ UE 5.6+.
🎥 دروس الفيديو
العروض التوضيحية المميزة:
دروس نموذج Realistic Model (عالية الجودة):
- مزامنة شفاه عالية الجودة من ملف/مخزن صوتي
- مزامنة شفاه عالية الجودة مع التحكم بالمزاج وتحويل النص إلى كلام محلي
- مزامنة شفاه عالية الجودة مع ElevenLabs وOpenAI TTS
- مزامنة شفاه مباشرة عالية الجودة من الميكروفون
دروس نموذج Standard Model:
- مزامنة شفاه مباشرة قياسية من الميكروفون
- مزامنة شفاه قياسية مع تحويل النص إلى كلام محلي
- مزامنة شفاه قياسية مع ElevenLabs وOpenAI TTS
الإعداد العام:
- إضافة شخصية MetaHuman مخصصة إلى المشروع التوضيحي
- فيديو تعليمي للإعداد
- جولة في المشروع التوضيحي (قديم)
💬 الدعم
- تطوير مخصص: solutions@georgy.dev (حلول مخصصة للفرق والمؤسسات)