Cách làm phim ngắn AI 90 giây trong 1 giờ
Quy trình đầy đủ để làm một phim ngắn AI dài 90 giây với nhân vật nhất quán qua 30+ cảnh trong dưới một giờ.
Phần lớn các bài hướng dẫn “phim ngắn AI” trên mạng tạo ra clip 15-30 giây với một nhân vật và coi vậy là xong. Đó không phải phim truyền hình ngắn — đó chỉ là một moodboard.
Một phim ngắn thực sự cần:
- Một mạch kể đầy đủ (mở đầu → xung đột → giải quyết)
- Nhiều cảnh từ các góc khác nhau
- Một nhân vật trông giống cùng một người xuyên suốt
- Nhịp điệu hợp lý
- Kết thúc chất lượng sản xuất (không có watermark, caption hay artifact AI)
Hướng dẫn này đi qua cách làm tất cả những điều đó trong dưới một giờ, dùng công cụ năm 2026.
Chúng tôi sẽ dùng một ví dụ thực: phim ngắn 90 giây tên là 《孟婆嫌我烦》 (“Mạnh Bà bực mình với tôi”), do một creator làm trên Juying trong 60 phút. Tác phẩm hoàn chỉnh có 30+ cảnh, nhân vật chính xuất hiện đồng nhất xuyên suốt, và đã viral trên các nền tảng video ngắn ở châu Á.
Quy trình dưới đây là quy trình chính xác đã được sử dụng.
Trước khi bắt đầu: bạn cần gì
Công cụ:
- Một nền tảng video AI hỗ trợ nhất quán nhân vật qua các cảnh. Chúng tôi sẽ dùng Juying cho hướng dẫn này; nguyên tắc có thể chuyển sang nền tảng khác.
- Một LLM để sinh kịch bản. Claude hoặc GPT-4 đều ổn. Nhiều nền tảng video AI đã tích hợp bước này.
- Một ảnh tham chiếu của nhân vật chính (ảnh thực, chân dung do AI tạo, hoặc bản vẽ phác).
Ngân sách thời gian: tổng 60 phút.
Trình độ: Người mới. Không cần kinh nghiệm video AI trước đó.
Bước 1: Ý tưởng câu chuyện (1 phút)
Bắt đầu với một câu. Chỉ một câu thôi.
Với Mạnh Bà, câu hạt giống là:
“Mạnh Bà, vị thần phục vụ canh quên lãng ở âm phủ Trung Hoa, bực mình với một linh hồn cứ luyên thuyên.”
Vậy đó. Đừng lên kế hoạch quá ở giai đoạn này. Cấu trúc sẽ đến ở bước 2.
Ràng buộc: chọn câu chuyện không cần quá 2-3 nhân vật riêng biệt và vừa 60-90 giây. Phần lớn các phim ngắn viral có một hoặc hai nhân vật chính, một xung đột rõ, và giải quyết nhanh.
Nếu bạn bí ý, ba mô thức câu chuyện hoạt động tốt cho phim ngắn AI:
- Phản ứng: điều gì đó xảy ra, nhân vật phản ứng mạnh, xoay chuyển kết. (Mạnh Bà theo mô thức này.)
- Hiểu lầm: A nghĩ B đang làm X, B thực ra đang làm Y, vén màn.
- Leo thang: chuyện nhỏ liên tục xảy ra, ngày càng tệ, lên đỉnh điểm.
Bước 2: Sinh kịch bản (5 phút)
Đưa ý tưởng một câu của bạn cho LLM với prompt sau:
Write a 90-second short drama script based on this idea:
[your one-sentence idea]
Requirements:
- 8-12 scenes, each scene 6-10 seconds
- Specify camera framing for each scene (close-up, medium, wide, etc.)
- Specify lighting and mood
- Include 2-3 lines of dialogue or voiceover where appropriate
- Build a clear arc: setup, conflict, resolution
- End with a memorable beatĐầu ra là một kịch bản có cấu trúc. Hãy xem lại. Điều chỉnh nhịp, đổi các cảnh nhạt bằng các nhịp mạnh hơn. Đừng quá nuông chiều bản thân — kịch bản phim ngắn được viết lại liên tục.
Với Mạnh Bà, LLM tạo ra 11 cảnh. Creator giữ 9, bỏ 2 cảnh không có sức nặng.
Bước 3: Khóa nhân vật chính (5 phút)
Đây là bước phần lớn quy trình bỏ qua và phải trả giá sau.
Tải lên một ảnh tham chiếu chất lượng tốt của nhân vật chính lên nền tảng video AI. Ảnh tham chiếu nên:
- Độ phân giải cao (tối thiểu 1024×1024)
- Chính diện hoặc 3/4 mặt
- Ánh sáng đều (không có bóng đậm trên mặt)
- Một nhân vật khung hình rõ (không có khuôn mặt khác trong ảnh)
Nền tảng xử lý ảnh tham chiếu và tạo một character asset — thường mất 30-90 giây. Khi asset được tạo, mọi lần sinh trong tương lai tham chiếu đến nhân vật này sẽ dùng danh tính đã khóa.
Vì sao điều này quan trọng: không có khóa nhân vật, đến cảnh 6 bạn sẽ nhìn một người khác. Có nó, cảnh 30 vẫn trông như cùng một nhân vật ở cảnh 1.
Nếu nền tảng của bạn không hỗ trợ character asset bền vững, đây là chỗ phim ngắn AI đa cảnh sẽ thất bại.
Với Mạnh Bà, ảnh tham chiếu là một chân dung do AI tạo của một bà cụ nghiêm khắc nhưng ấm áp mặc áo choàng đỏ. Năm phút tải lên, xử lý, khóa.
Bước 4: Tự sinh kịch bản phân cảnh (15 phút)
Các nền tảng video AI hiện đại đều có bộ lập kế hoạch storyboard. Đưa kịch bản + nhân vật đã khóa cho nó; nó tạo ra một storyboard từng cảnh với:
- Khung hình (cận, trung, toàn)
- Chuyển động máy quay (tĩnh, đẩy vào, lia ngang, dolly)
- Bố trí ánh sáng
- Tư thế / biểu cảm nhân vật
- Mã thời gian (cảnh này bắt đầu và kết thúc khi nào)
Nếu nền tảng của bạn không tự sinh storyboard, bạn có thể làm thủ công bằng cách viết prompt cho mỗi cảnh. Lên kế hoạch 15-20 phút nếu làm thủ công.
Một storyboard có kế hoạch tốt ngăn chặn vấn đề “mọi cảnh trông giống nhau” mà người mới hay gặp. Đa dạng hóa khung hình: xen kẽ cận với trung và toàn; dùng dolly hoặc đẩy vào để thêm chuyển động; đừng quay mọi cảnh ở mức ngang mắt.
Với Mạnh Bà, storyboard có 30+ cảnh trên 9 cảnh phim — bao gồm cảnh cận phản ứng của linh hồn, chi tiết bàn tay trên bát canh, cảnh toàn về bối cảnh âm phủ, và POV chủ quan qua làn hơi.
Bước 5: Sinh các cảnh (30 phút)
Đây là bước lâu nhất nhưng phần lớn là thời gian rảnh — nền tảng sinh các cảnh song song.
Bấm sinh. Đi đâu đó. Quay lại sau 30 phút.
Điều gì đang xảy ra phía sau:
- 30+ cảnh xếp hàng song song (nếu nền tảng hỗ trợ; sinh tuần tự sẽ lâu hơn nhiều)
- Mỗi cảnh dùng embedding nhân vật đã khóa
- Negative prompt sinh tự động ngăn các kiểu trôi phổ biến
- Kiểm tra nhất quán hậu kỳ sinh lại bất kỳ cảnh nào trôi quá xa
Nếu nền tảng của bạn không có sinh song song hoặc năng lực dành riêng không xếp hàng, bước này có thể mất hàng giờ thay vì phút. Đó là khác biệt giữa quy trình 60 phút và quy trình một ngày.
Với Mạnh Bà, bước này mất 28 phút — 30 cảnh, tất cả song song, tất cả nhất quán.
Bước 6: Lắp ráp (3 phút)
Phần lớn nền tảng video AI hiện đại tự tạo bản lắp ráp thô — chúng ghép các cảnh theo thứ tự storyboard.
Xem lại bản lắp ráp. Tìm:
- Vấn đề nhịp (cảnh kéo dài quá, cắt quá nhanh)
- Lỗi liên tục (ánh sáng nhảy, tư thế nhân vật không liên tục)
- Bất kỳ cảnh nào trôi nhân vật lọt qua
Đối với lỗi liên tục thực sự, sinh lại cảnh đó. Đối với nhịp, cắt hoặc kéo dài trong trình chỉnh sửa của nền tảng.
Mạnh Bà cần sinh lại hai cảnh và cắt 1 giây trên cảnh kết. Tổng ba phút.
Bước 7: Xóa caption + nâng độ phân giải (5 phút)
Phần lớn video AI tạo ra có artifact tinh tế: lỗi text nhỏ, thành phần giống watermark, bất thường thỉnh thoảng. Công cụ xóa thông minh dọn các thứ này mà không làm hỏng khung hình bên dưới.
Sau đó nâng độ phân giải. Đầu ra 4K trông chuyên nghiệp hơn 1080p, đặc biệt với nội dung ngắn phát trên màn hình lớn hiện đại.
Cả hai đều đã tích hợp trong các nền tảng tích hợp. Nếu dùng công cụ rời, hãy dự kiến 15-30 phút thay vì 5.
Bước 8: Hoàn thiện cuối (1 phút)
Thêm:
- Bìa tiêu đề (1-2 giây ở đầu)
- Bìa kết với credit / handle (1 giây ở cuối)
- Nhạc nền nếu phù hợp (phần lớn nền tảng có sẵn lựa chọn nhạc)
- Track phụ đề để tương thích nền tảng
Nét hoàn thiện cuối của Mạnh Bà: một bìa tiêu đề ký tự Trung và watermark ghi công cả creator lẫn Juying.
Kiểm tra tổng thời gian
| Bước | Thời gian |
|---|---|
| 1. Ý tưởng câu chuyện | 1 phút |
| 2. Sinh kịch bản | 5 phút |
| 3. Khóa nhân vật | 5 phút |
| 4. Storyboard | 15 phút |
| 5. Sinh các cảnh | 30 phút (phần lớn rảnh) |
| 6. Lắp ráp | 3 phút |
| 7. Xóa caption + nâng độ phân giải | 5 phút |
| 8. Hoàn thiện cuối | 1 phút |
| Tổng | ~65 phút |
30 phút ở bước 5 phần lớn là thời gian rảnh. Nếu bạn khởi động và đi đâu đó, tổng thời gian chủ động là ~35 phút.
Mẹo cho chất lượng cao hơn
Chọn ảnh tham chiếu đúng. Tham chiếu kém = khóa nhân vật kém. Một tham chiếu mờ hoặc ánh sáng kỳ quặc sẽ ám ảnh mọi cảnh. Dành 5 phút để tìm cái phù hợp.
Đa dạng hóa khung hình mạnh tay. Người mới quay mọi thứ ngang mắt, cảnh trung. Pro dùng cận, góc thấp, góc cao, dolly. Sự đa dạng làm phim cảm thấy điện ảnh.
Dùng sự im lặng. Một phim ngắn 90 giây không cần 90 giây thoại. Một số phim ngắn hay nhất là 50% phản ứng im lặng.
Xem phim ngắn thật trước khi làm phim của bạn. TikTok và YouTube Shorts có những phim ngắn cực kỳ điện ảnh ở trang đầu của bất kỳ tìm kiếm “phim ngắn” nào. Hãy "ăn cắp" mô thức nhịp.
Đừng chống lại mô hình. Nếu kịch bản của bạn yêu cầu thứ AI khó làm, hãy đơn giản hóa. Làm việc với những gì mô hình làm tốt.
Câu hỏi thường gặp
Quy trình này xử lý nhiều nhân vật được không?
Được. Khóa 2-3 nhân vật ở đầu bước 3, sau đó tham chiếu chúng theo tên trong prompt. Hạn chế: nếu hai nhân vật chia sẻ thời lượng màn hình và có đặc điểm tương tự (cùng giới tính, độ tuổi, dân tộc), hãy dự kiến lẫn danh tính thỉnh thoảng trong khung hình chung —khoảng 10% các cảnh đa nhân vật cần một lần dọn thủ công.
Có hoạt động cho video dài hơn (5+ phút) không?
Về lý thuyết là có, nhưng: chi phí tăng tuyến tính, và mạch truyện vượt quá ~3 phút thực sự khó hiện nay. Chúng tôi đã thấy creator ghép ba mạch 90 giây thành tập 5 phút. Phim 5 phút thuần từ-đầu-đến-cuối làm được nhưng tốn công hơn nhiều so với 90 giây.
Nếu tôi không vẽ hoặc chụp được ảnh tham chiếu thì sao?
Sinh một ảnh bằng AI ảnh (Midjourney, DALL-E, Stable Diffusion). Chọn kết quả phù hợp nhất với hình dung nhân vật của bạn. Dùng nó làm tham chiếu cho bước video.
Nền tảng của tôi không có khóa nhân vật. Tôi vẫn làm được không?
Bạn có thể, nhưng dự kiến mất 3-5 lần thời gian dọn nhất quán. Cách lách:
- Dùng cùng prompt nguyên văn cho mô tả nhân vật ở mọi cảnh
- Luôn đính ảnh tham chiếu
- Sinh 3 phiên bản mỗi cảnh, chọn cái nhất quán nhất
- Lên kế hoạch sinh lại ~30% cảnh khi trôi quá rõ
Đối với công việc tự sự, chuyển sang công cụ có nhất quán nhân vật bản địa thường đáng giá.
Tốn bao nhiêu credits / đô la?
Khác nhau lớn theo nền tảng. Trên Juying, một dự án 90 giây với 30 cảnh thường dùng 200-400 credits, hoàn toàn nằm trong gói miễn phí (500 credits/tháng) hoặc không đáng kể trên Pro ($49/tháng với 3000 credits).
Trên các nền tảng tính theo cảnh, dự kiến $5-30 mỗi dự án tùy độ dài và cài đặt chất lượng.
Điều không ai nói cho bạn
Quy trình 60 phút là thật, nhưng lần thử đầu tiên của hầu hết người mới mất 3-4 giờ. Việc chậm không phải vì AI; mà vì:
- Mất quá nhiều thời gian cho kịch bản (cứ viết gì đó đi, lặp sau)
- Chọn ảnh tham chiếu kém (dành 5 phút để tìm cái tốt)
- Bỏ qua bước storyboard (mỗi cảnh thành “cảnh trung rộng”; kết quả nhạt)
- Sinh lại tất cả (sinh lại 10% kém nhất, để phần còn lại)
Sau 2-3 dự án, quy trình rút xuống dưới một giờ. Sau 5 dự án, bạn có thể làm trong 40 phút.
Thử quy trình
Juying hỗ trợ toàn bộ quy trình này từ-đầu-đến-cuối với gói miễn phí. Nếu bạn làm điều gì đó với quy trình này, chúng tôi rất muốn xem.