如何在 1 小時內製作 90 秒 AI 短劇

完整工作流程：從一句故事點子到 90 秒、含 30 個以上一致鏡頭的 AI 短劇，全程在一小時內完成。

May 20, 2026·9 min read·tutorial

網路上多數「AI 短片」教學都做出 15 至 30 秒、只有一個角色的片段就喊收工。那不是短劇—那是情緒板。

真正的短劇需要：

完整的敘事弧線（鋪陳 → 衝突 → 化解）
不同角度的多個鏡頭
從頭到尾看起來都是同一個人的角色
適當的節奏
生產級的成品（無浮水印、無字幕殘影、無 AI 痕跡）

本指南示範如何在一小時內完成上述全部，使用的是 2026 年現有的工具。

我們會用一個真實案例：一支 90 秒短劇《孟婆嫌我煩》，創作者在 Juying 上花 60 分鐘完成。整支片有 30 個以上鏡頭，主角從頭到尾外觀一致，並在亞洲短影音平台上爆紅。

下面的工作流程就是當時實際使用的流程。

開始之前：你需要什麼

工具：

支援跨鏡頭角色一致性的 AI 影片平台。本指南使用 Juying；原則可通用。
用於產生劇本的 LLM。Claude 或 GPT-4 都很好。許多 AI 影片平台已內建這個步驟。
主角的一張參考圖（真實照片、AI 生成肖像或手繪皆可）。

時間預算：共 60 分鐘。

技能水準：新手。不需要任何 AI 影片經驗。

步驟 1：故事點子（1 分鐘）

從一句話開始。就一句。

《孟婆》的種子句是：

「孟婆，那位在中國地府服侍忘川湯的女神，被一個喋喋不休的靈魂惹煩了。」

就這樣。這個階段別過度規劃。結構在步驟 2 才出現。

限制：選一個不需要超過 2 至 3 個不同角色且能塞進 60 至 90 秒的故事。多數爆紅短劇都是一兩個主角、清晰的衝突、迅速的化解。

如果卡住了，三個適合 AI 短片的故事模式：

反應段：事情發生、角色強烈反應、有反轉式的化解。（《孟婆》就是這個。）
誤會：A 以為 B 在做 X，B 其實在做 Y，揭曉。
升級：小事不斷發生、越演越烈、爆發收場。

步驟 2：產生劇本（5 分鐘）

把你的一句話點子餵給 LLM，搭配以下提示詞：

Write a 90-second short drama script based on this idea:
[your one-sentence idea]

Requirements:
- 8-12 scenes, each scene 6-10 seconds
- Specify camera framing for each scene (close-up, medium, wide, etc.)
- Specify lighting and mood
- Include 2-3 lines of dialogue or voiceover where appropriate
- Build a clear arc: setup, conflict, resolution
- End with a memorable beat

輸出是結構化的劇本。檢視它。調整節奏、把無聊的場景換成更強的段落。別捨不得改—短劇劇本本來就常重寫。

《孟婆》的 LLM 產出 11 場戲。創作者保留 9 場，刪掉 2 場拉不起力道的。

步驟 3：鎖定主要角色（5 分鐘）

這是多數工作流程跳過、然後事後付出代價的步驟。

把一張好的主角參考照片上傳到你的 AI 影片平台。參考圖應該：

高解析度（至少 1024×1024）
正面或四分之三角度
燈光均勻（臉上沒有重陰影）
單一角色清楚入鏡（畫面中沒有其他臉）

平台處理參考圖並建立角色資產—通常要 30 至 90 秒。資產建立後，後續每次引用此角色的生成都會使用鎖定的身份。

為何這很重要：沒有角色鎖定，到第 6 個鏡頭你就在看另一個人。有了它，第 30 個鏡頭仍與第 1 個鏡頭一致。

如果你的平台不支援持久化角色資產，這就是多鏡頭 AI 短劇失敗的關鍵點。

《孟婆》的參考圖是一張 AI 生成的肖像，描繪一位嚴肅又慈祥、身穿紅袍的年長女性。五分鐘上傳、處理、鎖定完成。

步驟 4：自動產生分鏡（15 分鐘）

現代 AI 影片平台都有分鏡規劃器。把劇本與鎖定角色餵給它，會逐鏡頭產出分鏡，包含：

鏡頭構圖（特寫、中景、廣角）
運鏡（靜態、推軌、橫搖、移動車）
燈光配置
角色姿勢／表情
時間碼（此鏡頭的起迄）

如果你的平台不會自動生成分鏡，可以手動逐鏡頭寫提示詞。手動的話請預留 15 至 20 分鐘。

規劃完善的分鏡能避免新手常見的「每個鏡頭看起來都一樣」問題。請大膽變化構圖：特寫、中景、廣角交替；用推軌或前推增加動感；別每場戲都用平視。

《孟婆》的分鏡橫跨 9 場戲共 30 個以上鏡頭—包含靈魂的反應特寫、湯上的手部細節、地府場景的廣角，以及透過蒸氣的主觀鏡頭。

步驟 5：生成鏡頭（30 分鐘）

這是最長的步驟，但多半是閒置時間—平台會並行生成鏡頭。

按下生成。離開電腦。30 分鐘後回來。

幕後在做什麼：

30 個以上鏡頭並行排隊（如果平台支援；序列生成會慢得多）
每個鏡頭使用你鎖定的角色 embedding
自動產生的負向提示詞預防常見漂移模式
事後一致性檢查會重新生成漂移過大的鏡頭

如果你的平台沒有並行生成或無排隊的專屬運算容量，這個步驟可能要花數小時而非數十分鐘。這就是 60 分鐘工作流程與一整天工作流程的差別。

《孟婆》這步耗時 28 分鐘—30 個鏡頭，全部並行，全部一致。

步驟 6：組裝（3 分鐘）

多數現代 AI 影片平台會自動產出粗剪—按分鏡順序串接所有鏡頭。

檢視粗剪，留意：

節奏問題（某鏡頭停太久、某剪接太快）
連戲錯誤（光線跳動、角色姿勢不連續）
任何溜過去的角色漂移

真正的連戲問題，就針對該鏡頭重生。節奏問題就在平台編輯器裡修剪或延長。

《孟婆》需要重生兩個鏡頭，並把結尾鏡頭修剪掉 1 秒。共三分鐘。

步驟 7：字幕清除 + 升級（5 分鐘）

多數 AI 生成影片有細微瑕疵：小型文字錯亂、類浮水印元素、偶爾的異常。智能清除工具能在不損及底層幀的情況下清除這些。

然後升級。4K 輸出比 1080p 看起來更專業，特別是在現代大型螢幕上播放短影音時。

這兩項現在都已內建於整合型平台。若使用零散工具，預期此處要花 15 至 30 分鐘而非 5 分鐘。

步驟 8：最終潤飾（1 分鐘）

加入：

片頭卡（開頭 1 至 2 秒）
片尾卡含署名／帳號（結尾 1 秒）
適當的背景音樂（多數平台內建配樂選擇）
字幕軌以利平台相容性

《孟婆》的最終點綴：一張中文片名卡，以及一個同時署名創作者與 Juying 的浮水印。

總時間檢查

步驟	時間
1. 故事點子	1 分
2. 劇本產生	5 分
3. 角色鎖定	5 分
4. 分鏡	15 分
5. 生成鏡頭	30 分（多半閒置）
6. 組裝	3 分
7. 字幕清除 + 升級	5 分
8. 最終潤飾	1 分
總計	約 65 分

步驟 5 的 30 分鐘多半閒置。如果你按下生成就走開，總主動時間約 35 分鐘。

提升品質的訣竅

挑對的參考圖。差的參考圖＝差的角色鎖定。模糊或燈光怪異的參考圖會纏著你每個鏡頭。花 5 分鐘找對的那一張。

大膽變化構圖。新手都用平視中景拍每場。專業的會用特寫、低角度、高角度、推軌。多樣性讓作品有電影感。

善用沉默。90 秒短劇不需要 90 秒對白。最好的短劇有一半時間是沉默的反應。

動手前先看真的短片。TikTok 與 YouTube Shorts 上搜尋「短片」，第一頁就有意外有電影感的短片。偷學節奏。

別跟模型對著幹。如果劇本要求 AI 不擅長的東西，就簡化。配合模型擅長的內容。

常見問題

這個工作流程能處理多角色嗎？

可以。在步驟 3 開頭鎖定 2 至 3 個角色，然後在提示詞中以名字引用。限制：如果兩個角色共處同一畫面且特徵相似（同性別、年齡、族裔），共享畫面中偶爾會出現身份滲漏—約 10% 的多角色場景需要人工修補。

適用於更長的影片（5 分鐘以上）嗎？

理論上可以，但成本線性增加，超過約 3 分鐘後敘事連貫性目前確實困難。我們看過創作者把三段 90 秒劇情拼成 5 分鐘集數。純粹做完整 5 分鐘是可行的，但工作量遠超 90 秒。

如果我畫不出也拍不到參考圖怎麼辦？

用圖像 AI（Midjourney、DALL-E、Stable Diffusion）生一張。挑最符合你角色構想的結果，當作影片步驟的參考圖。

我的平台沒有角色鎖定，還能做嗎？

可以，但預期會花 3 至 5 倍時間在一致性修補上。變通方案：

每個鏡頭中角色描述用一字不差的相同提示詞
每次都附上參考圖
每個鏡頭生 3 個版本，挑最一致的
預期約 30% 鏡頭因漂移過於明顯而需重生

對敘事作品而言，換用支援原生角色一致性的工具通常很值得。

這要花多少點數／費用？

因平台差異很大。在 Juying，90 秒、30 鏡頭的專案通常用 200 至 400 點，免費方案就足夠涵蓋，付費方案更是輕鬆。

按單鏡頭計費的平台，依長度與品質設定，通常每個專案落在中低費用區間。

沒人告訴你的事

60 分鐘工作流程是真的，但多數新手第一次嘗試要花 3 至 4 小時。慢的不是 AI，而是：

劇本花太久（先寫個東西出來，之後再迭代）
挑了爛參考圖（花那 5 分鐘找好的）
跳過分鏡步驟（每個鏡頭都變成「廣中景」；成品會很平）
什麼都重生（重生最差的 10%，其餘留著）

做過 2 至 3 個專案後，工作流程會壓縮到一小時內。做過 5 個後，40 分鐘就能完成。

動手試試

Juying 端到端支援整個流程，並提供免費方案。如果你用這個流程做了什麼，歡迎分享給我們看。