90秒のAIショートドラマを1時間で作る方法

30ショット以上にわたって一貫したキャラクターを維持しながら、90秒のAIショートドラマを1時間以内で完成させる完全ワークフロー。

May 20, 2026·9 min read·tutorial

ネット上にある「AIショート映画」チュートリアルのほとんどは、1人のキャラクターで15〜30秒のクリップを作って完了とします。それはドラマではありません。ムードボードです。

本物のショートドラマには以下が必要です。

完全なナラティブアーク（セットアップ → 葛藤 → 解決）
異なるアングルからの複数ショット
全編を通じて同じ人物に見えるキャラクター
適切なペーシング
プロダクション品質の仕上げ（ウォーターマーク、キャプション、AIアーティファクトなし）

本ガイドでは、2026年現在のツールを使ってこれらすべてを1時間以内に行う方法を解説します。

実例を使います。Juyingでクリエイターが60分で作った《孟婆嫌我烦》（孟婆様が私を煩わしがっている）という90秒のショートドラマです。完成版は30ショット以上、主役キャラクターは全編を通じて同一に見え、アジアの短尺プラットフォームでバズりました。

以下のワークフローはまさにそのとき使われたものです。

始める前に：必要なもの

ツール：

ショット間でキャラクター一貫性をサポートするAI動画プラットフォーム。本ガイドではJuyingを使いますが、原則は他にも転用可能です。
脚本生成用LLM。ClaudeまたはGPT-4が良好に機能します。多くのAI動画プラットフォームはこのステップを内蔵しています。
メインキャラクターの参照画像1枚（実写、AI生成ポートレート、スケッチのいずれか）。

時間予算：合計60分。

スキルレベル：初心者。AI動画の経験不要。

ステップ1：ストーリーの種（1分）

1文から始めます。たった1文です。

孟婆様の場合、種となった1文は次の通りでした。

「中国の冥界で忘却のスープを供する女神・孟婆様が、ずっと喋り続ける魂に煩わしさを感じている。」

これだけです。この段階で計画しすぎないこと。構造はステップ2で生まれます。

制約：2〜3人を超えるキャラクターを必要としないかつ60〜90秒に収まるストーリーを選ぶこと。バズるショートドラマのほとんどは、1〜2人の主役、明確な葛藤、迅速な解決を持っています。

もし詰まったら、AIショートに向く3つのストーリーパターンを紹介します。

リアクションビート：何かが起きる、キャラクターが強く反応、ひねりのある解決。（孟婆様はこれ。）
誤解：AはBがXをしていると思い込んでいるが、Bは実はYをしている、という発覚。
エスカレーション：小さな出来事が繰り返し起き、悪化し、クライマックスを迎える。

ステップ2：脚本を生成する（5分）

1文のアイデアを以下のプロンプトでLLMに渡します。

Write a 90-second short drama script based on this idea:
[your one-sentence idea]

Requirements:
- 8-12 scenes, each scene 6-10 seconds
- Specify camera framing for each scene (close-up, medium, wide, etc.)
- Specify lighting and mood
- Include 2-3 lines of dialogue or voiceover where appropriate
- Build a clear arc: setup, conflict, resolution
- End with a memorable beat

出力は構造化された脚本です。レビューしましょう。ペーシングを調整し、退屈なシーンを強いビートに置き換えます。神聖視しないこと。ショートドラマの脚本は何度も書き直すものです。

孟婆様の場合、LLMは11シーンを出力しました。クリエイターは9シーンを残し、効きの弱い2シーンを削りました。

ステップ3：メインキャラクターをロック（5分）

これは最も多くのワークフローが省略し、後で代償を払うステップです。

メインキャラクターの良質な参照写真を1枚、AI動画プラットフォームにアップロードします。参照は以下を満たすべきです。

高解像度（最低1024×1024）
正面または3/4ビュー
均一なライティング（顔に強い影なし）
単独キャラクターが明瞭にフレーム化（他の顔が画像内にない）

プラットフォームが参照を処理してキャラクターアセットを作成します。通常30〜90秒程度です。アセットが作成されると、このキャラクターを参照する将来のすべての生成がロックされた同一性を使用します。

これが重要な理由：キャラクターロックがなければ、ショット6で別人を見ることになります。あれば、ショット30もショット1と同じキャラクターに見えます。

プラットフォームが永続的なキャラクターアセットをサポートしていない場合、マルチショットのAIドラマはここで失敗します。

孟婆様の場合、参照は赤いローブを着た厳しくも優しい老婦人のAI生成ポートレート1枚でした。アップロード、処理、ロックで5分。

ステップ4：ストーリーボードを自動生成（15分）

現代のAI動画プラットフォームはストーリーボードプランナーを内蔵しています。脚本＋ロックされたキャラクターを渡すと、以下を含むショット単位のストーリーボードを生成します。

ショットフレーミング（クローズアップ、ミディアムショット、ワイド）
カメラモーション（スタティック、プッシュイン、パン、ドリー）
ライティングセットアップ
キャラクターのポーズ／表情
タイムコード（ショットの開始と終了）

プラットフォームがストーリーボード自動生成に対応していない場合、各ショットのプロンプトを書くことで手動で行えます。手動の場合は15〜20分を見込んでください。

よく計画されたストーリーボードは、初心者がハマる「全ショットが同じに見える」問題を防ぎます。フレーミングを多様化しましょう。クローズアップとミディアム、ワイドを交互に。動きを加えるためにドリーやプッシュインを使う。すべてのシーンを目線の高さで撮らない。

孟婆様の場合、ストーリーボードは9シーンに30以上のショット — 魂のリアクションクローズアップ、スープの手元ディテール、冥界設定のワイドショット、湯気越しの主観POV — を含みました。

ステップ5：ショットを生成する（30分）

これは最も長いステップですが、ほぼアイドル時間です。プラットフォームがショットを並列生成します。

生成をクリック。離れる。30分後に戻る。

裏で起きていることは：

30以上のショットが並列でキューに入る（プラットフォームがサポートしていれば。シリアル生成だとはるかに長くかかる）
各ショットがロックされたキャラクターembeddingを使う
自動生成されたネガティブプロンプトが共通ドリフトモードを防ぐ
事後の一貫性チェックが、ドリフトしすぎたショットを再生成する

プラットフォームに並列生成やキューなしの専用容量がない場合、このステップは数分ではなく数時間かかり得ます。これが60分ワークフローと1日ワークフローの違いです。

孟婆様の場合、このステップは28分でした — 30ショット、すべて並列、すべて一貫。

ステップ6：アセンブリ（3分）

現代のAI動画プラットフォームのほとんどは、ストーリーボード順にショットを繋いだラフアセンブリを自動的に出力します。

アセンブリをレビューしましょう。以下をチェック。

ペーシング問題（長く居座りすぎるショット、短すぎるカット）
連続性エラー（ライティングのジャンプ、キャラクターポーズの非連続性）
キャラクタードリフトがすり抜けたショット

本物の連続性問題があれば、その単一ショットを再生成。ペーシングの問題はプラットフォームのエディタでトリムまたは延長します。

孟婆様は2ショットの再生成と、ラストショットでの1秒トリムが必要でした。合計3分。

ステップ7：キャプション除去＋アップスケール（5分）

生成されたAI動画には微妙なアーティファクトが含まれます：小さなテキストの乱れ、ウォーターマーク的な要素、時折の異常です。スマート除去ツールは下層フレームを劣化させずにこれらをクリーンアップします。

次にアップスケール。4K出力は1080pより専門的に見えます。特に大きな現代ディスプレイで再生される短尺コンテンツでは効果的です。

これらは現在、統合プラットフォームに組み込まれています。バラバラのツールを使う場合、ここで5分ではなく15〜30分を見込んでください。

ステップ8：最終仕上げ（1分）

追加するもの：

タイトルカード（冒頭1〜2秒）
エンドカード（クレジット／ハンドル付き、末尾1秒）
適切なバックグラウンドミュージック（多くのプラットフォームが選曲機能を内蔵）
プラットフォーム互換性のための字幕トラック

孟婆様の最終タッチは、漢字1文字のタイトルカードと、クリエイターとJuyingの両方をクレジットするウォーターマークでした。

合計時間チェック

ステップ	時間
1. ストーリーの種	1分
2. 脚本生成	5分
3. キャラクターロック	5分
4. ストーリーボード	15分
5. ショット生成	30分（ほぼアイドル）
6. アセンブリ	3分
7. キャプション除去＋アップスケール	5分
8. 最終仕上げ	1分
合計	〜65分

ステップ5の30分はほぼアイドルです。生成を始めて離れれば、合計のアクティブ時間は〜35分です。

クオリティを上げるコツ

正しい参照画像を選ぶ。悪い参照＝悪いキャラクターロック。ぼやけた、または奇妙にライティングされた参照は全ショットに祟ります。良いものを見つけるのに5分かけましょう。

フレーミングを大胆に多様化する。初心者は何でも目線の高さでミディアムショットを撮ります。プロはクローズアップ、ローアングル、ハイアングル、ドリーを使います。多様性が映画的に感じさせます。

沈黙を使う。90秒のドラマに90秒の対話は不要です。最高のショートドラマの一部は、半分が無言のリアクションです。

作る前に本物のショート映画を見る。TikTokやYouTube Shortsには、「short film」検索の最初のページに驚くほど映画的なショートがあります。ペーシングのパターンを盗みましょう。

モデルと戦わない。脚本がAIの苦手なことを要求するなら、簡略化しましょう。モデルが得意なことに合わせて作業します。

よくある質問

このワークフローは複数キャラクターを扱えますか？

はい。ステップ3の最初に2〜3キャラクターをロックし、プロンプト内で名前で参照します。制約：2人のキャラクターが画面を共有し、似た特徴（同じ性別、年齢、民族）を持つ場合、共有フレームで時折同一性混入が発生します — マルチキャラクターシーンの約10%は手作業のクリーンアップパスが必要です。

長尺動画（5分以上）で機能しますか？

理論的にはYes、しかしコストは線形に増加し、〜3分を超えるナラティブ整合性は現状本当に難しいです。3つの90秒アークを5分エピソードに繋ぐクリエイターを見てきました。純粋に5分のエンドツーエンドは可能ですが90秒より手間がかかります。

参照画像を描いたり撮影したりできない場合は？

画像AI（Midjourney、DALL-E、Stable Diffusion）で生成しましょう。キャラクター像に最も近い結果を選びます。それを動画ステップの参照として使います。

プラットフォームにキャラクターロックがありません。それでも作れますか？

作れますが、一貫性のクリーンアップに3〜5倍の時間を見込んでください。回避策：

すべてのショットでキャラクター記述を一字一句同じプロンプトにする
常に参照画像を含める
各ショットで3バージョン生成し、最も一貫したものを選ぶ
ドリフトが明白な場合、〜30%のショットを再生成する計画を立てる

ナラティブ作業では、ネイティブにキャラクター一貫性を持つツールに切り替える価値が通常あります。

クレジット／ドルでいくらかかりますか？

プラットフォームによって大きく異なります。Juyingでは、30ショットの90秒プロジェクトは通常200〜400クレジットで、無料枠（500クレジット/月）で十分か、Pro（$49/月、3000クレジット）では些細です。

クリップ単位料金のプラットフォームでは、長さとクオリティ設定により、プロジェクトあたり$5〜30を見込みます。

誰も教えてくれないこと

60分ワークフローは本物ですが、初心者の最初の挑戦は3〜4時間かかります。減速の原因はAIではなく：

脚本に時間をかけすぎる（とりあえず書いて後で繰り返す）
悪い参照画像を選ぶ（5分かけて良いものを見つける）
ストーリーボードステップを飛ばす（全ショットが「ワイドミディアムショット」になり、結果が平板に感じる）
すべてを再生成する（最悪の10%だけ再生成、残りは放置）

2〜3プロジェクト後、ワークフローは1時間以内に圧縮されます。5プロジェクト後には40分でできるようになります。

ワークフローを試す

Juyingはこのワークフロー全体を無料枠でエンドツーエンドにサポートしています。このワークフローで何かを作ったら、ぜひ見せてください。