본문으로 건너뛰기

개요

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync은 MetaHuman 및 커스텀 캐릭터를 위한 실시간, 오프라인 및 크로스플랫폼 립싱크를 지원하는 플러그인입니다. 다양한 소스의 오디오 입력에 반응하여 캐릭터의 입술을 애니메이션화할 수 있으며, 여기에는 다음과 같은 것들이 포함됩니다:

플러그인은 내부적으로 오디오 입력을 기반으로 비스메(음소의 시각적 표현)를 생성합니다. 텍스트가 아닌 오디오 데이터와 직접 작동하기 때문에, 이 플러그인은 영어, 스페인어, 프랑스어, 독일어, 일본어, 중국어, 한국어, 러시아어, 이탈리아어, 포르투갈어, 아랍어, 힌디어를 포함하되 이에 국한되지 않는 다국어 입력을 지원합니다. 문자 그대로 모든 언어가 지원됩니다. 이는 립싱크가 언어별 텍스트 처리가 아닌 오디오 음소를 기반으로 생성되기 때문입니다.

Standard Model14개의 비스메를 생성하며 미리 정의된 포즈 애셋을 사용하여 립싱크 애니메이션을 수행합니다. 반면, Realistic Models(MetaHumanARKit 기반 캐릭터에만 해당)은 미리 정의된 포즈 애셋에 의존하지 않고 81개의 얼굴 제어 변화를 생성하여 훨씬 더 사실적인 얼굴 애니메이션을 제공합니다.

캐릭터 호환성

이름과 달리, Runtime MetaHuman Lip Sync는 MetaHuman뿐만 아니라 다양한 캐릭터와 호환됩니다:

인기 상용 캐릭터 시스템

  • Daz Genesis 8/9 캐릭터
  • Reallusion Character Creator 3/4 (CC3/CC4) 캐릭터
  • Mixamo 캐릭터
  • ReadyPlayerMe 아바타

애니메이션 표준 지원

  • FACS 기반 블렌드쉐이프 시스템
  • Apple ARKit 블렌드쉐이프 표준
  • Preston Blair 음소 세트
  • 3ds Max 음소 시스템
  • 얼굴 표정을 위한 커스텀 모프 타겟이 있는 모든 캐릭터

MetaHuman이 아닌 캐릭터와 함께 플러그인을 사용하는 자세한 방법은 커스텀 캐릭터 설정 가이드를 참조하세요.

애니메이션 미리보기

다양한 캐릭터 유형과 모델에 걸쳐 플러그인이 생성하는 립싱크 애니메이션의 품질을 확인할 수 있는 짧은 애니메이션입니다:

MetaHuman 캐릭터를 사용한 현실적인 모델
MetaHuman 캐릭터가 포함된 표준 모델
커스텀 캐릭터를 사용한 표준 모델
커스텀 캐릭터를 사용한 Standard 모델

주요 기능

  • 마이크 입력으로 실시간 립싱크
  • 오프라인 오디오 처리 지원
  • 모델별 플랫폼 지원을 갖춘 크로스 플랫폼 호환성
  • 여러 캐릭터 시스템과 애니메이션 표준 지원
  • 커스텀 캐릭터를 위한 유연한 비짐 매핑
  • 오디오 분석을 통해 모든 구어에 대응하는 범용 언어 지원
  • 감정 표현을 강화하는 무드 인식 페이셜 애니메이션
  • 구성 가능한 출력 타입 (풀 페이스 또는 입 모양 전용 제어)

립싱크 모델

플러그인은 프로젝트 요구에 맞게 여러 립싱크 모델을 제공합니다:

Standard 모델은 효율적이고 크로스 플랫폼 성능과 넓은 캐릭터 호환성을 제공합니다:

  • MetaHuman 및 모든 커스텀 캐릭터 타입에서 작동
  • 실시간 성능에 최적화
  • 더 낮은 리소스 요구 사항
  • 플랫폼 지원: Windows, Android, Android 기반 플랫폼 (Meta Quest 포함)
확장 플러그인 필요

Standard 모델을 사용하려면 추가 확장 플러그인을 설치해야 합니다. 설치 방법은 사전 준비 섹션을 참조하세요.

성능, 캐릭터 호환성, 시각적 품질, 대상 플랫폼, 그리고 필요한 기능에 따라 적절한 모델을 선택할 수 있습니다.

작동 방식

플러그인은 오디오 입력을 다음과 같이 처리합니다:

  1. 오디오 데이터는 지정된 채널샘플레이트를 가진 float PCM 형식으로 수신됩니다
  2. 플러그인은 모델에 따라 페이셜 컨트롤 데이터 또는 비짐을 생성하도록 오디오를 처리합니다
  3. 무드 지원 모델에서는 감정 컨텍스트가 페이셜 애니메이션에 적용됩니다
  4. 애니메이션 데이터는 캐릭터의 얼굴 움직임을 실시간으로 구동합니다

성능 아키텍처

Runtime MetaHuman Lip Sync는 CPU 전용 추론을 사용하여 실시간 애플리케이션에 적합한 일관되고 낮은 지연 시간의 립싱크 결과를 제공합니다. 기본적으로 플러그인은 립싱크 처리를 10밀리초마다 수행합니다 (조절 가능 - 모든 사용 가능한 설정은 플러그인 구성에서 처리 청크 크기, 스레드 수 및 기타 성능 매개변수를 참조).

모델 아키텍처 개요

립싱크 모델은 멜 스펙트로그램 분석을 통해 오디오를 처리하는 소형 트랜스포머 기반 뉴럴 네트워크를 사용합니다. 이 경량 아키텍처는 효율적인 CPU 추론과 최소한의 메모리 풋프린트로 실시간 성능을 위해 특별히 설계되었습니다.

CPU 추론을 사용하는 이유?

실시간 립싱크와 같은 작고 빈번한 추론 작업에서는 GPU보다 CPU 처리가 더 나은 지연 시간 특성을 제공합니다. 배치 사이즈 1, 10-100ms 추론 간격에서 GPU의 PCIe 전송 및 커널 런칭 오버헤드는 실제 연산 시간을 초과하는 경우가 많습니다. 또한 게임 엔진에서는 GPU가 이미 렌더링, 셰이더, 물리 연산으로 포화되어 있어 예측할 수 없는 지연 스파이크를 발생시키는 리소스 경합이 발생합니다.

하드웨어 호환성

이 플러그인은 전용 그래픽 하드웨어 없이도 대부분의 미드 티어 이상의 CPU에서 효율적으로 작동하여 데스크톱, 모바일, VR 플랫폼 전반에 걸쳐 실시간 성능을 제공합니다. 더 약한 하드웨어에서는 모델 유형Semi-Optimized 또는 Highly Optimized로 조정하거나 **처리 청크 크기**를 늘려 반응성을 약간 희생하면서도 실시간 성능을 유지할 수 있습니다.

빠른 시작

캐릭터에 립싱크를 적용하기 위한 기본 설정입니다:

  1. MetaHuman 캐릭터의 경우 설정 가이드를 따르세요
  2. 커스텀 캐릭터의 경우 커스텀 캐릭터 설정 가이드를 따르세요
  3. 선호하는 립싱크 모델을 선택하고 구성하세요
  4. Blueprint에서 오디오 입력 처리를 설정하세요
  5. Animation Blueprint에서 적절한 립싱크 노드를 연결하세요
  6. 오디오를 재생하고 캐릭터가 감정을 담아 말하는 것을 확인하세요!

추가 리소스

📦 다운로드 및 링크

데모 프로젝트:

두 개의 바로 사용 가능한 데모 프로젝트가 제공됩니다 — 전체 세부 정보, 다운로드 및 워크스루는 전용 데모 프로젝트 페이지를 참조하세요:

두 데모 모두 크로스 플랫폼(Windows, Mac, Linux, iOS, Android, Meta Quest)이며 패키징된 빌드와 전체 UE 5.6+ 소스 프로젝트로 제공됩니다.

🎥 비디오 튜토리얼

주요 데모:

Realistic 모델 (고품질) 튜토리얼:

Standard 모델 튜토리얼:

일반 설정:

💬 지원

Join our Discord
online · support