AI動画におけるキャラクタードリフトとは何ですか？

キャラクタードリフトとは、ユーザーが一定であってほしいと意図したにもかかわらず、AI生成キャラクターの同一性を定義する特徴が、複数の動画ショットを跨いで非意図的かつ徐々に変化していく現象です。現状のほとんどのツールでナラティブAI動画が成立しない最大の理由です。

なぜAI動画でキャラクタードリフトが起こるのですか？

構造的に3つの理由があります。(1)生成動画モデルはステートレスで、各生成は確率的サンプリングをゼロから始めるため、毎回わずかに異なる結果を出します。(2)プロンプトはカテゴリーを記述しているのであって、同一性を記述していません。(3)ドリフトはショット間で累積し、各ショットの僅差が指数的に蓄積していきます。

どのAI動画ツールがキャラクタードリフトを解決していますか？

2026年現在、キャラクター・アズ・アセット型アーキテクチャがドリフトを最も効果的に解決しています。このアプローチではキャラクターをユニークなcharacter_idに紐づく永続embeddingとして保存し、生成時にモデルのコンディショニングに直接注入します。このアプローチを採用しているツール（Juying.artなど）は、30ショット以上にわたって同一性を維持します。

キャラクタードリフトはポストプロダクションで修正できますか？

部分的には可能です。フェイススワップやコンポジティングで個別ショットは直せますが、労働集約的でスケールすると人工的に見えます。生成時にembeddingベースのコンディショニングでドリフトを解決する方が、事後修正よりはるかに効果的です。

AI動画におけるキャラクタードリフトとは何か

AI生成キャラクターの同一性が複数ショットを跨いで意図せずずれていく現象「キャラクタードリフト」の定義、原因、そして2026年に実際に解決している技術。

May 17, 2026·7 min read·definition

キャラクタードリフトとは、AI生成キャラクターの外見がショットごとに微妙に変化し、6〜7ショット目には別人になっている現象です。

ナラティブAI動画（短編映画、ドラマ、ブランドストーリー）が、現状のほとんどのツールで成立しない最大の理由です。

本記事ではキャラクタードリフトを正確に定義し、なぜ起きるのか、何が原因か、2026年において実際に何が解決しているのかを解説します。

正確な定義

キャラクタードリフトとは、ユーザーが一定であってほしいと意図したにもかかわらず、複数のAI生成動画ショットを跨いでキャラクターの同一性を定義する特徴が非意図的かつ徐々に変化する現象を指します。

ドリフトは非意図的です。ユーザーは一貫性を望んでいました。徐々に進みます。各ショットで少しずつ変わります。同一性を定義する特徴に作用します。その人をその人として認識させる要素のことです。

ドリフトは以下とは異なります。

スタイル変更（意図的、例：写実から水彩への切り替え）
状態変化（意図的、例：同じキャラクターが怒り、負傷、加齢する）
ポーズ／アングルのバリエーション（意図的、例：正面からプロフィール）

ドリフトとは、同じ人物を望んだのに別の人物が返ってきたときに起きていることです。

どの特徴がドリフトするのか

業界の多くのチームがカタログ化してきた数千件のパブリックツール生成において、ドリフトは典型的に以下の特徴に作用します。

目の色 — 最も多いドリフト。茶色がヘーゼルになり緑になる、というのが数ショットで起きます。
目の形 — 一重から二重、細目から大きな目。
顎ライン — シャープから柔らかく、四角から丸く。
生え際 — 後退または前進、分け目が変わる。
肌の色 — 5〜10%暖かくまたは冷たくなる。
顔の比率 — 目の間隔、鼻と口の比、顎の長さ。
髪の色 — 黒から茶色から濃い茶色へ。
体型 — 身長、体格、姿勢。
特徴的な要素 — ほくろ、傷、アクセサリーが現れたり消えたり。
スタイル的な同一性 — 写実調から僅かにスタイライズへ。

いくつかは明白です。他（目の間隔、鼻と口の比）はサブリミナル的に登録されます。視聴者は何が変わったかを意識的に特定しないまま、何かがおかしいと感じます。

なぜドリフトが起きるのか

構造的な理由が3つあります。

1. 生成動画モデルはステートレス

ショット1を生成するとき、モデルはプロンプトをlatent（潜在表現）に変換し、拡散プロセスを実行し、フレームを出力します。内部状態は永続化されません。同じプロンプトでショット2を生成すると、モデルは新たに始まります。

新しい生成は類似はしていますが同一ではありません。なぜなら拡散サンプリングは確率的だからです。各生成は、似たプロンプトであってもモデルの潜在空間における異なるランダムウォークになります。

2. プロンプトはカテゴリーを記述するもので、同一性ではない

「肩までの黒髪を持つ30歳のアジア系女性」というプロンプトは、数百万人の有効な人物を含むカテゴリーを記述しています。モデルは毎回そこから1人を選びます。それ以上に具体的な何かがなければ、特定の人物にロックすることはできません。

一部のツールは参照画像を受け付けます。これは最初の2〜3ショットでは助けになりますが、モデルは徐々に参照より重くプロンプトを重み付けし、ドリフトが戻ってきます。

3. ドリフトはショット間で累積する

小さなショット単位の差でも累積します。各ショットが元の参照から3%ドリフトすれば、ショット10で30%ずれています。ショット20までにキャラクターは認識不能なほど別人になります。

ドリフトの数学は線形ではなく指数的です。

なぜ現行ツールはネイティブに解決していないのか

ほとんどのAI動画ツール（Runway Gen-3、Pika 2.0、Sora、Kling、Veo 3、Seedance 2.0）は単発クリップのクオリティに最適化されています。R&D投資は各個別生成をできるだけ良くすることに向けられています。マルチショット一貫性は別のアーキテクチャを必要とする別の問題で、基盤モデル自身の優先事項にはなっていません。

ネイティブで最も近いツール（Sora、Seedance）でも、業界の多くのチームのテストではショット3〜4あたりから目に見えるドリフトが現れます。

実際にドリフトを解決する技術

機能順に5つのアプローチを紹介します。

1. 同じプロンプト＋同じseed（ほとんど機能しない）

理論：入力が同一なら出力も同一になるはず。

現実：現代の動画モデルにはノイズスケジューリングやアテンションドロップアウトなど、シードを完全には尊重しない確率的要素があります。入力が同一でもフレーム単位の差が現れます。

結果：ドリフトは僅かに減るが、なくならない。

2. 各ショットに参照画像を含める（〜3ショットまで効く）

理論：すべてのプロンプトに参照を含めてキャラクターをアンカーする。

現実：ショット1〜3で機能、ショット4〜6でドリフト、ショット8〜10で破綻。

結果：短尺コンテンツには有効、ナラティブには不十分。

3. キャラクターごとのLoRAファインチューニング（機能するがスケールしない）

理論：キャラクターの写真で小さなカスタムモデルを訓練し、全ショットで使う。

現実：画像生成では非常によく機能します。動画では20枚以上の写真が必要、キャラクター訓練に30分〜2時間、動きへの汎化が弱く、複数キャラクターと組み合わせられません。

結果：プロダクション品質の一貫性は得られるが、ワークフローがスケールしない。

4. IP-Adapter / 参照のみコンディショニング（中程度に効く）

理論：参照画像の特徴量をモデルのアテンション層に注入し、プロンプトをバイパスする。

現実：5〜10ショット程度の中程度の一貫性で機能、20ショット以上や大幅なポーズ変化で破綻。

結果：中尺コンテンツには堅実、フルレングスのナラティブには不十分。

5. キャラクター・アズ・アセット型アーキテクチャ（現状の最先端）

理論：キャラクターをプロンプトの一要素ではなく、embeddingとして保存される一級永続アセットとして扱う。embeddingをモデルのコンディショニングに直接注入する。共通ドリフトモードのカタログに基づく自動生成ネガティブプロンプトと組み合わせる。

現実：これがJuyingのようなツールが構築してきたアプローチです。業界の多くのチームのテストにおいて、このアプローチは30ショット以上にわたって高い一貫性で同一性を維持します。

結果：ナラティブコンテンツに対するプロダクションレディな一貫性。

任意のツールでドリフトをテストする方法

3つの簡単なテストを紹介します。

テスト1 — 30ショットテスト：同じキャラクターを30の異なるシーン（多様な照明、アングル、感情）で生成します。グリッドに並べ、顔を横並びで比較。明らかに同じ人物に見えるべきです。

テスト2 — エンドツーエンドテスト：ショット1とショット30を直接比較します。同じ人物として区別がつかないレベルであるべきです。

テスト3 — 再利用テスト：今日キャラクターを生成。明日、別の脚本を持って戻ってくる。再構築せずに同じキャラクターを再利用できますか？

3つすべてに合格するツールは、プロダクション品質でドリフト問題を解決しています。1つでも落ちるツールは解決していません。

よくある質問

キャラクタードリフトは「不気味の谷」と同じですか？

いいえ。不気味の谷とは1枚の人物レンダリングにおける微妙な違和感を指します。ドリフトは複数レンダリングを跨いだ同一性の変化を指します。

ドリフトは人間以外のキャラクターにも影響しますか？

はい。ドリフトはアニメーションキャラクター、スタイライズされたキャラクター、動物、さらには物体にも影響します。同一性を定義する特徴を持つものは何でもドリフトし得ます。

ポストプロダクションでドリフトを直せますか？

部分的には可能です。個別ショットでフェイススワップやコンポジティングは可能ですが、労働集約的でスケールすると人工的に見えます。生成時に解決する方が、事後修正よりはるかに優れています。

長尺動画ほどドリフトは悪化しますか？

はい。ドリフトは累積するため、他の条件が同じであれば5分動画は30秒動画より多くドリフトします。これが長尺AI動画が極めて難しい理由の一つです。

ドリフトは本質的に解けない問題ですか？

いいえ。キャラクター・アズ・アセット型アーキテクチャは機能します。挑戦はそれをうまくエンジニアリングすることです。正しいembedding抽出、正しいドリフトモードカタログ、正しい一貫性チェックループを構築することです。このレイヤーに投資したツールは、プロダクション品質でドリフトを解決しています。

結論

キャラクタードリフトはモデルの問題ではありません。アーキテクチャの問題です。より大きな動画モデルでは解決しません。より高品質なドリフトを生むだけです。解はモデルの上のレイヤーにあります。同一性をどう保存し、どう取り出し、どう生成に注入するか、です。

AI動画ツールを選ぶ際、同じキャラクターが複数ショットに登場する作業をするなら、問うべき質問はこれです。

「あなたのツールは、生成を跨いでキャラクターの同一性をどう保存し、どう取り出すのか？」

答えが「参照画像を使う」なら、ドリフトは起こります。答えが「embeddingを永続キャラクターアセットとして保存し、コンディショニングに注入する」なら、ドリフトはおおむね解決されています。

ドリフトをネイティブに解決するツールを試す — Juying — フリーティアあり。