개요

Runtime MetaHuman Lip Sync은 MetaHuman 및 커스텀 캐릭터를 위한 실시간, 오프라인 및 크로스플랫폼 립싱크를 지원하는 플러그인입니다. 다양한 소스의 오디오 입력에 반응하여 캐릭터의 입술을 애니메이션화할 수 있으며, 여기에는 다음과 같은 것들이 포함됩니다:
- Runtime Audio Importer의 capturable sound wave를 통한 마이크 입력
- Runtime Text To Speech 또는 Runtime AI Chatbot Integrator에서 생성된 합성 음성
- Runtime Audio Importer를 통해 여러 형식으로 스트리밍되거나 임포트된 오디오 데이터
- 부동 소수점 PCM 형식의 모든 오디오 데이터(부동 소수점 샘플의 배열)
플러그인은 내부적으로 오디오 입력을 기반으로 비스메(음소의 시각적 표현)를 생성합니다. 텍스트가 아닌 오디오 데이터와 직접 작동하기 때문에, 이 플러그인은 영어, 스페인어, 프랑스어, 독일어, 일본어, 중국어, 한국어, 러시아어, 이탈리아어, 포르투갈어, 아랍어, 힌디어를 포함하되 이에 국한되지 않는 다국어 입력을 지원합니다. 문자 그대로 모든 언어가 지원됩니다. 이는 립싱크가 언어별 텍스트 처리가 아닌 오디오 음소를 기반으로 생성되기 때문입니다.
Standard Model은 14개의 비스메를 생성하며 미리 정의된 포즈 애셋을 사용하여 립싱크 애니메이션을 수행합니다. 반면, Realistic Models(MetaHuman 및 ARKit 기반 캐릭터에만 해당)은 미리 정의된 포즈 애셋에 의존하지 않고 81개의 얼굴 제어 변화를 생성하여 훨씬 더 사실적인 얼굴 애니메이션을 제공합니다.
캐릭터 호환성
이름과 달리, Runtime MetaHuman Lip Sync는 MetaHuman뿐만 아니라 다양한 캐릭터와 호환됩니다:
인기 상용 캐릭터 시스템
- Daz Genesis 8/9 캐릭터
- Reallusion Character Creator 3/4 (CC3/CC4) 캐릭터
- Mixamo 캐릭터
- ReadyPlayerMe 아바타
애니메이션 표준 지원
- FACS 기반 블렌드쉐이프 시스템
- Apple ARKit 블렌드쉐이프 표준
- Preston Blair 음소 세트
- 3ds Max 음소 시스템
- 얼굴 표정을 위한 커스텀 모프 타겟이 있는 모든 캐릭터
MetaHuman이 아닌 캐릭터와 함께 플러그인을 사용하는 자세한 방법은 커스텀 캐릭터 설정 가이드를 참조하세요.
애니메이션 미리보기
다양한 캐릭터 유형과 모델에 걸쳐 플러그인이 생성하는 립싱크 애니메이션의 품질을 확인할 수 있는 짧은 애니메이션입니다:
주요 기능
- 마이크 입력으로 실시간 립싱크
- 오프라인 오디오 처리 지원
- 모델별 플랫폼 지원을 갖춘 크로스 플랫폼 호환성
- 여러 캐릭터 시스템과 애니메이션 표준 지원
- 커스텀 캐릭터를 위한 유연한 비짐 매핑
- 오디오 분석을 통해 모든 구어에 대응하는 범용 언어 지원
- 감정 표현을 강화하는 무드 인식 페이셜 애니메이션
- 구성 가능한 출력 타입 (풀 페이스 또는 입 모양 전용 제어)
립싱크 모델
플러그인은 프로젝트 요구에 맞게 여러 립싱크 모델을 제공합니다:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Standard 모델은 효율적이고 크로스 플랫폼 성능과 넓은 캐릭터 호환성을 제공합니다:
- MetaHuman 및 모든 커스텀 캐릭터 타입에서 작동
- 실시간 성능에 최적화
- 더 낮은 리소스 요구 사항
- 플랫폼 지원: Windows, Android, Android 기반 플랫폼 (Meta Quest 포함)
Standard 모델을 사용하려면 추가 확장 플러그인을 설치해야 합니다. 설치 방법은 사전 준비 섹션을 참조하세요.
Realistic 모델은 특히 MetaHuman 캐릭터에서 향상된 시각적 충실도를 제공합니다:
- 고급 페이셜 애니메이션(81개의 페이셜 컨트롤)을 갖춘 MetaHuman 및 ARKit 기반 캐릭터와 호환
- 더 자연스러운 입 움직임으로 더 높은 시각적 품질
- 약간 더 높은 성능 요구 사항
- 실시간 애플리케이션을 위한 스트리밍 오디오 처리
- 시네마틱 경험과 클로즈업 캐릭터 인터랙션에 이상적
- 세 가지 최적화 레벨: Original, Semi-Optimized, Highly Optimized
- 구성 가능한 모프 타겟 세트 (모프 타겟 세트 선택 참조)
- 플랫폼 지원: Windows, Mac, iOS, Linux, Android, Android 기반 플랫폼 (Meta Quest 포함)
Realistic 모델은 메인 플러그인에 포함되어 있으며 추가 확장이 필요하지 않습니다.
Mood-Enabled Realistic 모델은 MetaHuman 캐릭터용 감정 인식 페이셜 애니메이션을 제공합니다:
- 무드 반응형 페이셜 애니메이션(81개의 페이셜 컨트롤)을 갖춘 MetaHuman 및 ARKit 기반 캐릭터와 호환
- 12가지 무드 타입 (Neutral, Happy, Sad, Confident 등)
- 구성 가능한 무드 강도 (0.0 ~ 1.0)
- 향상된 동기화를 위한 조정 가능한 예측 시간 (20ms ~ 200ms)
- 선택 가능한 출력 타입: Full Face 또는 Mouth Only 컨트롤
- 실시간 애플리케이션을 위한 스트리밍 오디오 처리
- 구성 가능한 모프 타겟 세트 (모프 타겟 세트 선택 참조)
- 플랫폼 지원: Windows, Mac, iOS, Linux, Android, Android 기반 플랫폼 (Meta Quest 포함)
Mood-Enabled Realistic 모델은 메인 플러그인에 포함되어 있으며 추가 확장이 필요하지 않습니다.
성능, 캐릭터 호환성, 시각적 품질, 대상 플랫폼, 그리고 필요한 기능에 따라 적절한 모델을 선택할 수 있습니다.
작동 방식
플러그인은 오디오 입력을 다음과 같이 처리합니다:
- 오디오 데이터는 지정된 채널 및 샘플레이트를 가진 float PCM 형식으로 수신됩니다
- 플러그인은 모델에 따라 페이셜 컨트롤 데이터 또는 비짐을 생성하도록 오디오를 처리합니다
- 무드 지원 모델에서는 감정 컨텍스트가 페이셜 애니메이션에 적용됩니다
- 애니메이션 데이터는 캐릭터의 얼굴 움직임을 실시간으로 구동합니다
성능 아키텍처
Runtime MetaHuman Lip Sync는 CPU 전용 추론을 사용하여 실시간 애플리케이션에 적합한 일관되고 낮은 지연 시간의 립싱크 결과를 제공합니다. 기본적으로 플러그인은 립싱크 처리를 10밀리초마다 수행합니다 (조절 가능 - 모든 사용 가능한 설정은 플러그인 구성에서 처리 청크 크기, 스레드 수 및 기타 성능 매개변수를 참조).
모델 아키텍처 개요
립싱크 모델은 멜 스펙트로그램 분석을 통해 오디오를 처리하는 소형 트랜스포머 기반 뉴럴 네트워크를 사용합니다. 이 경량 아키텍처는 효율적인 CPU 추론과 최소한의 메모리 풋프린트로 실시간 성능을 위해 특별히 설계되었습니다.
CPU 추론을 사용하는 이유?
실시간 립싱크와 같은 작고 빈번한 추론 작업에서는 GPU보다 CPU 처리가 더 나은 지연 시간 특성을 제공합니다. 배치 사이즈 1, 10-100ms 추론 간격에서 GPU의 PCIe 전송 및 커널 런칭 오버헤드는 실제 연산 시간을 초과하는 경우가 많습니다. 또한 게임 엔진에서는 GPU가 이미 렌더링, 셰이더, 물리 연산으로 포화되어 있어 예측할 수 없는 지연 스파이크를 발생시키는 리소스 경합이 발생합니다.
하드웨어 호환성
이 플러그인은 전용 그래픽 하드웨어 없이도 대부분의 미드 티어 이상의 CPU에서 효율적으로 작동하여 데스크톱, 모바일, VR 플랫폼 전반에 걸쳐 실시간 성능을 제공합니다. 더 약한 하드웨어에서는 모델 유형을 Semi-Optimized 또는 Highly Optimized로 조정하거나 **처리 청크 크기**를 늘려 반응성을 약간 희생하면서도 실시간 성능을 유지할 수 있습니다.
빠른 시작
캐릭터에 립싱크를 적용하기 위한 기본 설정입니다:
- MetaHuman 캐릭터의 경우 설정 가이드를 따르세요
- 커스텀 캐릭터의 경우 커스텀 캐릭터 설정 가이드를 따르세요
- 선호하는 립싱크 모델을 선택하고 구성하세요
- Blueprint에서 오디오 입력 처리를 설정하세요
- Animation Blueprint에서 적절한 립싱크 노드를 연결하세요
- 오디오를 재생하고 캐릭터가 감정을 담아 말하는 것을 확인하세요!
추가 리소스
📦 다운로드 및 링크
데모 프로젝트:
두 개의 바로 사용 가능한 데모 프로젝트가 제공됩니다 — 전체 세부 정보, 다운로드 및 워크스루는 전용 데모 프로젝트 페이지를 참조하세요:
- 풀 AI 대화형 NPC 워크플로 - 음성 인식 + LLM 챗봇 + TTS + 립싱크
- 기본 립싱크 데모 - 마이크 입력, 오디오 파일, TTS
두 데모 모두 크로스 플랫폼(Windows, Mac, Linux, iOS, Android, Meta Quest)이며 패키징된 빌드와 전체 UE 5.6+ 소스 프로젝트로 제공됩니다.
🎥 비디오 튜토리얼
주요 데모:
Realistic 모델 (고품질) 튜토리얼:
Standard 모델 튜토리얼:
일반 설정:
💬 지원
- 커스텀 개발: solutions@georgy.dev (팀 및 조직을 위한 맞춤형 솔루션)