AI 영상에서 캐릭터 드리프트란 무엇인가요?

캐릭터 드리프트란 사용자가 그대로 유지되기를 의도했음에도 불구하고, AI가 생성한 캐릭터의 정체성을 정의하는 특징들이 여러 영상 샷에 걸쳐 비의도적이고 점진적으로 변하는 현상을 말합니다. 현재 대부분의 도구에서 내러티브 AI 영상이 작동하지 않는 가장 큰 이유입니다.

왜 AI 영상에서 캐릭터 드리프트가 일어나나요?

구조적 이유 세 가지: (1) 생성 영상 모델은 스테이트리스라서, 각 생성이 확률적 샘플링으로 처음부터 시작되어 약간씩 다른 결과를 만듭니다. (2) 프롬프트는 카테고리를 묘사하지 정체성을 묘사하지 않습니다. (3) 드리프트는 샷 간에 누적되어, 샷별 작은 차이가 기하급수적으로 쌓입니다.

어떤 AI 영상 도구가 캐릭터 드리프트를 해결하나요?

2026년 기준, 캐릭터-자산형 아키텍처가 드리프트를 가장 효과적으로 해결합니다. 이 접근은 캐릭터를 고유한 character_id에 묶인 영구 embedding으로 저장하고, 생성 시 모델의 컨디셔닝에 주입합니다. 이 접근을 사용하는 도구들(예: Juying.art)은 30샷 이상에 걸쳐 정체성을 유지합니다.

캐릭터 드리프트를 후반 작업에서 고칠 수 있나요?

부분적으로 가능합니다. 페이스 스왑이나 합성으로 개별 샷은 고칠 수 있지만, 노동 집약적이고 스케일에서 인공적으로 보입니다. 생성 시점에 embedding 기반 컨디셔닝으로 드리프트를 해결하는 것이 후반 보정보다 훨씬 효과적입니다.

AI 영상에서 캐릭터 드리프트란 무엇인가

AI가 생성한 캐릭터의 정체성이 여러 샷에 걸쳐 의도와 무관하게 변해가는 현상 "캐릭터 드리프트"의 정의, 원인, 그리고 2026년 실제로 이를 해결하는 기술.

May 17, 2026·7 min read·definition

캐릭터 드리프트란 AI가 생성한 캐릭터의 외모가 한 샷에서 다음 샷으로 미묘하게 달라지다가, 여섯 일곱 번째 샷쯤에는 다른 사람을 보고 있는 현상입니다.

내러티브 AI 영상 — 단편 영화, 드라마, 브랜드 스토리 — 가 지금 대부분의 도구에서 작동하지 않는 가장 큰 이유입니다.

이 글에서는 캐릭터 드리프트를 정확히 정의하고, 왜 일어나는지, 무엇이 원인인지, 2026년에 어떤 기술이 실제로 해결하고 있는지를 다룹니다.

정확한 정의

캐릭터 드리프트란 사용자가 그대로 유지되기를 의도했음에도 불구하고, 여러 AI 생성 영상 샷에 걸쳐 캐릭터의 정체성을 정의하는 특징들이 비의도적이고 점진적으로 변화하는 현상을 말합니다.

드리프트는 비의도적입니다 — 사용자는 일관성을 원했습니다. 점진적입니다 — 각 샷이 조금씩 변합니다. 정체성을 정의하는 특징에 영향을 줍니다 — 그 사람을 그 사람으로 만드는 요소에 말입니다.

드리프트는 다음과 다릅니다:

스타일 변경 (의도적, 예: 사실적에서 수채화로 전환)
상태 변화 (의도적, 예: 같은 캐릭터가 화나거나 다치거나 늙음)
포즈 / 각도 변형 (의도적, 예: 정면에서 프로필로)

드리프트란 같은 사람을 원했는데 다른 사람을 받았을 때 일어난 일입니다.

어떤 특징이 드리프트하는가

업계 일부 팀들이 카탈로그화한 수천 건의 공개 도구 생성 결과에서, 드리프트는 일반적으로 다음 특징들에 영향을 줍니다:

눈 색 — 가장 흔한 드리프트. 갈색이 헤이즐이 되고 녹색이 되는 데 몇 샷 안 걸립니다.
눈 모양 — 외꺼풀에서 쌍꺼풀로, 좁은 눈에서 큰 눈으로.
턱선 — 날카로움에서 부드러움으로, 사각에서 둥근 형태로.
헤어라인 — 후퇴 또는 전진, 가르마 변화.
피부톤 — 5~10% 따뜻해지거나 차가워짐.
얼굴 비율 — 눈 간격, 코-입 비율, 턱 길이.
머리색 — 검정에서 갈색에서 짙은 갈색으로.
신체 비율 — 키, 체격, 자세.
특징적 요소 — 점, 흉터, 액세서리가 나타나거나 사라짐.
스타일적 정체성 — 사실적에서 약간 양식화된 렌더링으로.

일부는 명백합니다. 다른 것들(눈 간격, 코-입 비율)은 잠재의식적으로 등록됩니다 — 시청자가 무엇이 변했는지 의식적으로 짚어내지 못한 채 뭔가 어긋났다고 느낍니다.

왜 드리프트가 일어나는가

구조적인 이유 세 가지가 있습니다.

1. 생성 영상 모델은 스테이트리스다

샷 1을 생성할 때, 모델은 프롬프트를 latent(잠재 표현)로 변환하고, 디퓨전 프로세스를 실행하여 프레임을 출력합니다. 내부 상태는 영구화되지 않습니다. 같은 프롬프트로 샷 2를 생성하면 모델은 새로 시작합니다.

새 생성은 비슷하지만 동일하지는 않습니다. 디퓨전 샘플링이 확률적이기 때문입니다. 각 생성은 비슷한 프롬프트라도 모델의 잠재 공간에서 서로 다른 랜덤 워크가 됩니다.

2. 프롬프트는 카테고리를 묘사하지 정체성을 묘사하지 않는다

"어깨까지 오는 검은 머리의 30세 아시아 여성"이라는 프롬프트는 수백만 명의 유효한 사람을 포함하는 카테고리를 묘사합니다. 모델은 매번 그중 하나를 고릅니다. 더 구체적인 무언가가 없으면 특정 인물에 고정할 수 없습니다.

일부 도구는 참조 이미지를 받습니다. 첫 2~3샷에는 도움이 되지만, 모델이 점차 참조보다 프롬프트를 더 강하게 가중하면서 드리프트가 다시 슬며시 들어옵니다.

3. 드리프트는 샷 간에 누적된다

샷 단위의 작은 차이도 누적됩니다. 각 샷이 원본 참조에서 3% 드리프트하면 샷 10에서는 30% 어긋나 있습니다. 샷 20쯤에는 캐릭터가 알아볼 수 없을 정도로 다릅니다.

드리프트의 수학은 선형이 아니라 지수적입니다.

왜 현재 도구들은 네이티브로 풀지 못하는가

대부분의 AI 영상 도구(Runway Gen-3, Pika 2.0, Sora, Kling, Veo 3, Seedance 2.0)는 단일 클립 퀄리티에 최적화되어 있습니다. R&D 노력이 각 개별 생성을 가능한 좋게 만드는 데 들어갑니다. 멀티 샷 일관성은 별도의 아키텍처를 요구하는 별도의 문제이며, 파운데이션 모델 자체의 우선순위가 아니었습니다.

네이티브로 가장 가까운 도구들(Sora, Seedance)도 업계 일부 팀들의 테스트에서는 샷 3~4쯤부터 눈에 띄는 드리프트가 나타납니다.

드리프트를 실제로 해결하는 기술들

잘 작동하는 순서로 다섯 가지 접근법:

1. 같은 프롬프트 + 같은 seed (대체로 작동하지 않음)

이론: 동일한 입력은 동일한 출력을 낳아야 한다.

현실: 현대 영상 모델은 시드를 완전히 따르지 않는 확률적 요소들(노이즈 스케줄링, 어텐션 드롭아웃)을 가지고 있습니다. 입력이 동일해도 프레임 단위 차이가 나타납니다.

결과: 드리프트 약간 감소, 제거되지는 않음.

2. 모든 샷에 참조 이미지 (~3샷까지 도움)

이론: 모든 프롬프트에 참조를 포함해 캐릭터를 앵커링한다.

현실: 샷 1~3에서 작동, 샷 4~6에서 드리프트, 샷 8~10에서 무너짐.

결과: 짧은 콘텐츠에는 유용, 내러티브에는 실패.

3. 캐릭터별 LoRA 파인튜닝 (작동하지만 스케일하지 않음)

이론: 캐릭터 사진으로 작은 커스텀 모델을 훈련해 모든 샷에 사용한다.

현실: 이미지 생성에는 잘 작동합니다. 영상에는 사진 20장 이상이 필요하고, 캐릭터당 훈련에 30분~2시간, 모션으로 잘 일반화되지 않으며, 여러 캐릭터와 조합되지 않습니다.

결과: 프로덕션 퀄리티 일관성을 얻지만 워크플로우가 스케일하지 않음.

4. IP-Adapter / 참조 전용 컨디셔닝 (중간 정도 도움)

이론: 참조 이미지 특징을 모델 어텐션 레이어에 주입해 프롬프트를 우회한다.

현실: 5~10샷 정도 중간 일관성에서 작동, 20샷 이상이나 큰 포즈 변화에서 무너짐.

결과: 중간 길이 콘텐츠에는 견고, 풀렝스 내러티브에는 실패.

5. 캐릭터-자산형 아키텍처 (현 시점 최첨단)

이론: 캐릭터를 프롬프트의 한 디테일이 아니라 embedding으로 저장되는 일급 영구 자산으로 다룬다. embedding을 모델의 컨디셔닝에 직접 주입한다. 흔한 드리프트 모드 카탈로그 기반 자동 생성 negative prompt와 결합한다.

현실: Juying 같은 도구들이 이를 중심으로 만들어졌습니다. 업계 일부 팀들의 테스트에서, 이 접근은 30샷 이상에 걸쳐 높은 일관성으로 정체성을 유지합니다.

결과: 내러티브 콘텐츠를 위한 프로덕션 레디 일관성.

임의의 도구에서 드리프트 테스트하는 법

빠른 테스트 세 가지:

테스트 1 — 30샷 테스트: 같은 캐릭터를 30개의 다른 장면(다양한 조명, 각도, 감정)에서 생성합니다. 그리드로 배치, 얼굴들을 나란히 비교. 명백히 같은 인물이어야 합니다.

테스트 2 — 엔드투엔드 테스트: 샷 1과 샷 30을 직접 비교합니다. 같은 인물로 구별이 안 가야 합니다.

테스트 3 — 재사용 테스트: 오늘 캐릭터를 만듭니다. 내일 다른 대본으로 돌아옵니다. 다시 만들 필요 없이 같은 캐릭터를 재사용할 수 있나요?

세 테스트를 모두 통과하는 도구는 프로덕션 퀄리티로 드리프트 문제를 해결한 것입니다. 하나라도 실패하는 도구는 해결하지 못한 것입니다.

자주 묻는 질문

캐릭터 드리프트는 "언캐니 밸리"와 같은 건가요?

아닙니다. 언캐니 밸리는 한 인물 렌더링 내에서의 미묘한 어긋남을 가리킵니다. 드리프트는 여러 렌더링 사이의 정체성 변화를 가리킵니다.

드리프트는 비인간 캐릭터에도 영향을 주나요?

네. 드리프트는 애니메이션 캐릭터, 양식화된 캐릭터, 동물, 심지어 사물에도 영향을 줍니다. 정체성을 정의하는 특징이 있는 모든 것이 드리프트할 수 있습니다.

후반 작업에서 드리프트를 고칠 수 있나요?

부분적으로요. 개별 샷에 페이스 스왑이나 합성을 할 수 있지만, 노동 집약적이고 스케일에서 인공적으로 보입니다. 생성 시점에 드리프트를 푸는 것이 사후에 고치는 것보다 훨씬 낫습니다.

긴 영상일수록 드리프트가 심해지나요?

네. 드리프트는 누적되므로, 다른 조건이 같다면 5분짜리 영상은 30초짜리보다 더 많은 드리프트를 가집니다. 이것이 장편 AI 영상이 어려운 이유 중 하나입니다.

드리프트는 본질적으로 풀 수 없는 문제인가요?

아닙니다. 캐릭터-자산형 아키텍처가 작동합니다. 도전은 그것을 잘 엔지니어링하는 것입니다 — 올바른 embedding 추출, 올바른 드리프트 모드 카탈로그, 올바른 일관성 체크 루프를 구축하는 것. 이 레이어에 투자한 도구들은 프로덕션 퀄리티로 드리프트를 해결합니다.

핵심

캐릭터 드리프트는 모델 문제가 아닙니다 — 아키텍처 문제입니다. 더 큰 영상 모델이 풀어주지 않습니다; 더 고품질의 드리프트를 만들 뿐입니다. 해답은 모델 위 레이어에 있습니다: 정체성을 어떻게 저장하고, 검색하고, 생성에 주입하느냐입니다.

AI 영상 도구를 고르는데 같은 캐릭터가 여러 샷에 등장하는 작업이라면, 던져야 할 질문은 이것입니다:

"당신의 도구는 생성을 가로질러 캐릭터 정체성을 어떻게 저장하고 검색하나요?"

답이 "참조 이미지를 사용한다"라면 — 드리프트가 일어날 것입니다. 답이 "embedding을 영구 캐릭터 자산으로 저장하고 컨디셔닝에 주입한다"라면 — 드리프트는 대체로 풀려 있습니다.

드리프트를 네이티브로 푸는 도구를 시도해보세요 — Juying — 무료 티어 제공.