Обзор

Runtime MetaHuman Lip Sync — это плагин, который обеспечивает синхронизацию губ в реальном времени, офлайн и на кроссплатформенной основе как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:

Вход с микрофона через захватываемую звуковую волну плагина Runtime Audio Importer
Синтезированную речь из Runtime Text To Speech или Runtime AI Chatbot Integrator
Потоковые или импортированные аудиоданные в нескольких форматах через Runtime Audio Importer
Любые аудиоданные в формате float PCM (массив сэмплов с плавающей запятой)

Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает непосредственно с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь: английский, испанский, французский, немецкий, японский, китайский, корейский, русский, итальянский, португальский, арабский и хинди. Фактически поддерживается любой язык, так как синхронизация губ генерируется из аудиофонем, а не из обработки текста, специфичной для языка.

Стандартная модель создает 14 визем и выполняет анимацию синхронизации губ с использованием предопределенного ассета поз. В отличие от нее, Реалистичные модели (эксклюзивно для персонажей MetaHuman) генерируют 81 изменение лицевого контроля без использования предопределенного ассета поз, что приводит к значительно более реалистичной мимике.

Совместимость с персонажами

Несмотря на название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, а не только с MetaHumans:

Поддержка стандартов анимации

Системы блендшейпов на основе FACS
Стандарт блендшейпов Apple ARKit
Наборы фонем Preston Blair
Фонемные системы 3ds Max
Любой персонаж с пользовательскими морф-таргетами для мимики

Подробные инструкции по использованию плагина с персонажами, отличными от MetaHuman, см. в Руководстве по настройке пользовательских персонажей.

Предпросмотр анимации

Ознакомьтесь с этими короткими анимациями, чтобы увидеть качество анимации синхронизации губ, создаваемой плагином для различных типов персонажей и моделей:

Realistic Lip Sync Example — *Реалистичная модель с персонажем MetaHuman*

Standard Lip Sync Example — *Стандартная модель с персонажем MetaHuman*

Custom Character Lip Sync Example — *Стандартная модель с пользовательским персонажем*

Ключевые особенности

Синхронизация губ в реальном времени с микрофонного ввода
Поддержка офлайн-обработки аудио
Кросс-платформенная совместимость с поддержкой платформ, специфичной для модели
Поддержка нескольких систем персонажей и стандартов анимации
Гибкое сопоставление визем для пользовательских персонажей
Универсальная поддержка языков — работает с любым разговорным языком через анализ аудио
Анимация лица с учетом настроения для повышения выразительности
Настраиваемые типы вывода (полное лицо или только управление ртом)

Модели синхронизации губ

Плагин предлагает несколько моделей синхронизации губ для различных потребностей проекта:

Стандартная модель
Реалистичная модель
Реалистичная модель с поддержкой настроения

Стандартная модель синхронизации губ обеспечивает эффективную, кросс-платформенную производительность с широкой совместимостью персонажей:

Работает с MetaHumans и всеми типами пользовательских персонажей
Оптимизирована для производительности в реальном времени
Меньшие требования к ресурсам
Полная совместимость с локальным TTS (плагин Runtime Text To Speech)
Поддержка платформ: Windows, Android, платформы на базе Android (включая Meta Quest)

Требуется плагин-расширение

Для использования Стандартной модели необходимо установить дополнительный плагин-расширение. См. раздел Предварительные требования для получения инструкций по установке.

Вы можете выбрать подходящую модель в зависимости от требований вашего проекта к производительности, совместимости персонажей, визуальному качеству, целевой платформе и потребностям в функциях.

Примечание о совместимости TTS

Хотя все модели поддерживают различные методы ввода аудио, обычная Реалистичная модель имеет ограниченную совместимость с локальным TTS из-за конфликтов среды выполнения ONNX. Однако Реалистичная модель с поддержкой настроения полностью совместима с локальным TTS. Для функциональности преобразования текста в речь:

Стандартная модель: Совместима со всеми вариантами TTS (локальными и внешними)
Реалистичная модель: Рекомендуются внешние TTS-сервисы (OpenAI, ElevenLabs)
Реалистичная модель с поддержкой настроения: Совместима со всеми вариантами TTS (локальными и внешними)

Как это работает

Плагин обрабатывает аудиовход следующим образом:

Аудиоданные принимаются в формате PCM с плавающей запятой с указанными каналами и частотой дискретизации
Плагин обрабатывает аудио для генерации данных лицевого управления или визем в зависимости от модели
Для моделей с поддержкой настроения эмоциональный контекст применяется к лицевой анимации
Данные анимации управляют движениями лица персонажа в реальном времени

Архитектура производительности

Runtime MetaHuman Lip Sync использует только CPU-инференс для обеспечения стабильных результатов синхронизации губ с низкой задержкой, подходящих для приложений реального времени. По умолчанию плагин выполняет обработку синхронизации губ каждые 10 миллисекунд (настраивается — см. Конфигурация плагина для всех доступных настроек, включая Размер чанка обработки, количество потоков и другие параметры производительности).

Обзор архитектуры модели

Модели синхронизации губ используют компактную нейронную сеть на основе трансформера, которая обрабатывает аудио через анализ мел-спектрограммы. Эта легковесная архитектура специально разработана для производительности в реальном времени с эффективным CPU-инференсом и минимальным потреблением памяти.

Почему CPU-инференс?

Для небольших, частых операций инференса, таких как синхронизация губ в реальном времени, обработка на CPU обеспечивает лучшие характеристики задержки, чем GPU. При размере пакета 1 и интервалах инференса 10-100 мс накладные расходы GPU от передач по PCIe и запусков ядра часто превышают фактическое время вычислений. Кроме того, в игровых движках GPU уже загружен рендерингом, шейдерами и физикой, что создает конкуренцию за ресурсы и приводит к непредсказуемым скачкам задержки.

Совместимость с оборудованием

Плагин эффективно работает на большинстве CPU среднего и высокого уровня, не требуя выделенного графического оборудования, обеспечивая производительность в реальном времени на настольных, мобильных и VR-платформах. Для более слабого оборудования вы можете изменить Тип модели на Semi-Optimized или Highly Optimized или увеличить Размер чанка обработки, чтобы сохранить производительность в реальном времени с немного сниженной отзывчивостью.

Быстрый старт

Вот базовая настройка для включения синхронизации губ на вашем персонаже:

Для персонажей MetaHuman следуйте Руководству по настройке
Для пользовательских персонажей следуйте Руководству по настройке пользовательского персонажа
Выберите и настройте предпочитаемую модель синхронизации губ
Настройте обработку аудиовхода в вашем Blueprint
Подключите соответствующий узел синхронизации губ в Animation Blueprint
Воспроизведите аудио и наблюдайте, как ваш персонаж говорит с эмоциями!

Дополнительные ресурсы

📦 Загрузки и ссылки

Получить на Fab
Веб-сайт продукта
Скачать демо (Windows)
Скачать исходные файлы демо (UE 5.6) – Требуется этот плагин + Runtime Audio Importer, опционально: Text To Speech / AI Chatbot. Для стандартной модели требуется небольшой плагин-расширение (см. здесь)

🎥 Видеоуроки

Избранное демо:

Демо реалистичной модели – повышенная точность

Уроки по реалистичной модели (высокое качество):

Уроки по стандартной модели:

Общая настройка:

💬 Поддержка

Сервер поддержки в Discord
Индивидуальная разработка: solutions@georgy.dev (индивидуальные решения для команд и организаций)

Совместимость с персонажами​

Популярные коммерческие системы персонажей​

Поддержка стандартов анимации​

Предпросмотр анимации​

Ключевые особенности​

Модели синхронизации губ​

Как это работает​

Архитектура производительности​

Обзор архитектуры модели​

Почему CPU-инференс?​

Совместимость с оборудованием​

Быстрый старт​

Дополнительные ресурсы​

📦 Загрузки и ссылки​

🎥 Видеоуроки​

Избранное демо:​

Уроки по реалистичной модели (высокое качество):​

Уроки по стандартной модели:​

Общая настройка:​

💬 Поддержка​