In einer Stunde ein 90-Sekunden-KI-Kurzdrama produzieren

Vollständiger Workflow mit der Toolchain von 2026: Von einer Story-Idee bis zu einem 90-Sekunden-Kurzdrama mit 30+ Shots und konsistenten Figuren – in unter einer Stunde.

May 20, 2026·9 min read·tutorial

Die meisten „KI-Kurzfilm"-Tutorials online produzieren 15–30-Sekunden-Clips mit einer Figur und nennen das fertig. Das ist kein Drama — das ist ein Moodboard.

Ein echtes Kurzdrama braucht:

Einen vollständigen Erzählbogen (Setup → Konflikt → Auflösung)
Mehrere Shots aus unterschiedlichen Winkeln
Eine Figur, die durchgehend wie dieselbe Person aussieht
Sauberes Pacing
Produktionsreifes Finish (keine Wasserzeichen, Captions oder KI-Artefakte)

Dieser Leitfaden zeigt, wie man all das in unter einer Stunde mit der Toolchain von 2026 schafft.

Wir nutzen ein echtes Beispiel: ein 90-sekündiges Kurzdrama namens 《孟婆嫌我烦》 („Lady Mengpo ist genervt von mir"), das ein Creator auf Juying in 60 Minuten gemacht hat. Das Stück hat 30+ Shots, die Hauptfigur erscheint durchgehend identisch, und es ging auf asiatischen Short-Form-Plattformen viral.

Der unten beschriebene Workflow ist exakt der genutzte.

Vor dem Start: was Sie brauchen

Tools:

Eine KI-Video-Plattform, die Charakterkonsistenz über Shots unterstützt. Wir nutzen Juying; die Prinzipien gelten plattformübergreifend.
Ein LLM für die Skripterstellung. Claude oder GPT-4 funktionieren gut. Viele KI-Video-Plattformen integrieren diesen Schritt.
Ein Referenzbild Ihrer Hauptfigur (echtes Foto, KI-generiertes Porträt oder Skizze).

Zeitbudget: 60 Minuten gesamt.

Skill-Level: Anfänger. Keine KI-Video-Vorkenntnisse nötig.

Schritt 1: Die Story-Idee (1 Minute)

Beginnen Sie mit einem Satz. Nur einem.

Für Mengpo war der Saatsatz:

„Lady Mengpo, die Göttin, die in der chinesischen Unterwelt die Suppe des Vergessens reicht, ist genervt von einer Seele, die ständig plappert."

Das war's. Überplanen Sie an dieser Stelle nicht. Die Struktur kommt in Schritt 2.

Die Einschränkung: Wählen Sie eine Story, die nicht mehr als 2–3 verschiedene Figuren braucht und in 60–90 Sekunden passt. Die meisten viralen Kurzdramen haben ein bis zwei Hauptrollen, einen klaren Konflikt und eine schnelle Auflösung.

Wenn Sie hängen, drei Story-Muster, die für KI-Shorts gut funktionieren:

Der Reaktions-Beat: Etwas passiert, Figur reagiert stark, Twist-Auflösung. (Mengpo folgt diesem.)
Das Missverständnis: A denkt, B macht X, B macht eigentlich Y, Aufklärung.
Die Eskalation: Eine Kleinigkeit wiederholt sich, wird schlimmer, gipfelt.

Schritt 2: Skript generieren (5 Minuten)

Geben Sie Ihre Ein-Satz-Idee mit folgendem Prompt an ein LLM:

Write a 90-second short drama script based on this idea:
[your one-sentence idea]

Requirements:
- 8-12 scenes, each scene 6-10 seconds
- Specify camera framing for each scene (close-up, medium, wide, etc.)
- Specify lighting and mood
- Include 2-3 lines of dialogue or voiceover where appropriate
- Build a clear arc: setup, conflict, resolution
- End with a memorable beat

Output ist ein strukturiertes Skript. Prüfen Sie es. Justieren Sie das Pacing, ersetzen Sie schwache Szenen durch stärkere Beats. Seien Sie nicht zimperlich — Kurzdrama-Skripte werden ständig umgeschrieben.

Bei Mengpo lieferte das LLM 11 Szenen. Der Creator behielt 9 und strich 2, die kein Gewicht hatten.

Schritt 3: Hauptfigur fixieren (5 Minuten)

Diesen Schritt überspringen die meisten Workflows — und zahlen später dafür.

Laden Sie ein gutes Referenzfoto Ihrer Hauptfigur in Ihre KI-Video-Plattform. Die Referenz sollte:

Hochauflösend sein (mindestens 1024×1024)
Frontal oder im 3/4-Profil
Ausgeglichene Beleuchtung (keine harten Schatten im Gesicht)
Eine einzelne, klar gerahmte Figur (keine weiteren Gesichter im Bild)

Die Plattform verarbeitet die Referenz und legt ein Charakter-Asset an — typischerweise in 30–90 Sekunden. Sobald das Asset existiert, nutzt jede künftige Generierung, die diese Figur referenziert, die fixierte Identität.

Warum das wichtig ist: Ohne Character Lock schauen Sie ab Shot 6 auf eine andere Person. Damit sieht Shot 30 noch aus wie dieselbe Figur wie Shot 1.

Wenn Ihre Plattform keine persistenten Charakter-Assets unterstützt, scheitern hier Multi-Shot-KI-Dramen.

Bei Mengpo war die Referenz ein einzelnes KI-generiertes Porträt einer strengen, gütigen älteren Frau in roten Roben. Fünf Minuten hochgeladen, verarbeitet, fixiert.

Schritt 4: Storyboard automatisch generieren (15 Minuten)

Moderne KI-Video-Plattformen enthalten einen Storyboard-Planer. Geben Sie ihm Skript + fixierte Figur; er liefert ein Shot-by-Shot-Storyboard mit:

Shot-Framing (Close-up, Medium Shot, Wide)
Kamerabewegung (statisch, Push-In, Pan, Dolly)
Beleuchtungs-Setup
Pose / Ausdruck der Figur
Time Code (wann der Shot beginnt und endet)

Wenn Ihre Plattform Storyboards nicht automatisch erzeugt, können Sie das manuell tun, indem Sie pro Shot einen Prompt schreiben. Rechnen Sie dann mit 15–20 Minuten.

Ein gut geplantes Storyboard verhindert das „jeder Shot sieht gleich aus"-Problem, das Anfänger trifft. Variieren Sie Framings: wechseln Sie Close-ups mit Mediums und Wides; nutzen Sie Dolly oder Push-In für Bewegung; drehen Sie nicht jede Szene auf Augenhöhe.

Bei Mengpo hatte das Storyboard 30+ Shots über die 9 Szenen verteilt — darunter Reaktions-Close-ups der Seele, Hand-Details an der Suppe, Wide-Shots der Unterwelt-Kulisse und subjektive POV-Shots durch den Dampf.

Schritt 5: Shots generieren (30 Minuten)

Das ist der längste Schritt, aber meist Idle-Zeit — Ihre Plattform generiert Shots parallel.

Auf Generieren klicken. Weggehen. In 30 Minuten zurückkommen.

Was im Hintergrund passiert:

30+ Shots reihen sich parallel ein (sofern Ihre Plattform es unterstützt; serielles Generieren dauert deutlich länger)
Jeder Shot nutzt Ihr fixiertes Charakter-Embedding
Auto-generierte Negative Prompts unterdrücken häufige Drift-Modi
Nachgelagerte Konsistenz-Checks generieren Shots neu, die zu weit driften

Wenn Ihre Plattform keine parallele Generierung oder dedizierte Kapazität hat, kann dieser Schritt Stunden statt Minuten dauern. Das ist der Unterschied zwischen einem 60-Minuten- und einem Tages-Workflow.

Bei Mengpo dauerte dieser Schritt 28 Minuten — 30 Shots, alle parallel, alle konsistent.

Schritt 6: Assembly (3 Minuten)

Die meisten modernen KI-Video-Plattformen erzeugen automatisch eine Rohmontage — sie reihen die Shots in Storyboard-Reihenfolge.

Prüfen Sie die Montage. Achten Sie auf:

Pacing-Probleme (ein Shot, der zu lange steht; ein Schnitt, der zu schnell ist)
Continuity-Fehler (Lichtsprünge, Posen-Diskontinuität)
Shots, in denen Character Drift durchgerutscht ist

Bei echten Continuity-Problemen den Shot einzeln neu generieren. Beim Pacing im Editor der Plattform trimmen oder verlängern.

Mengpo brauchte zwei neu generierte Shots und einen 1-Sekunden-Trim am Schluss. Drei Minuten gesamt.

Schritt 7: Caption-Removal + Upscale (5 Minuten)

Die meisten KI-generierten Videos haben subtile Artefakte: kleine Textstörungen, wasserzeichenartige Elemente, gelegentliche Anomalien. Smart-Removal-Tools räumen das auf, ohne den Frame darunter zu verschlechtern.

Dann hochskalieren. 4K-Outputs wirken professioneller als 1080p, vor allem für Short-Form-Inhalte auf modernen Großbildschirmen.

Beides ist heute in integrierte Plattformen eingebaut. Bei Tool-Salat hier eher 15–30 Minuten statt 5.

Schritt 8: Final Polish (1 Minute)

Hinzufügen:

Titelkarte (1–2 Sekunden am Anfang)
Endkarte mit Credit / Handle (1 Sekunde am Ende)
Hintergrundmusik, falls passend (die meisten Plattformen bieten eine Auswahl)
Untertitelspur für Plattform-Kompatibilität

Mengpos finaler Touch: eine einzelne chinesische Titelkarte und ein Wasserzeichen, das Creator und Juying nennt.

Zeitcheck gesamt

Schritt	Zeit
1. Story-Idee	1 Min
2. Skripterstellung	5 Min
3. Character Lock	5 Min
4. Storyboard	15 Min
5. Shots generieren	30 Min (meist idle)
6. Assembly	3 Min
7. Caption-Removal + Upscale	5 Min
8. Final Polish	1 Min
Gesamt	~65 Min

Die 30 Minuten in Schritt 5 sind meist idle. Wenn Sie es starten und weggehen, beträgt die aktive Zeit insgesamt ~35 Minuten.

Tipps für höhere Qualität

Wählen Sie das richtige Referenzbild. Schlechte Referenz = schlechter Character Lock. Eine unscharfe oder seltsam ausgeleuchtete Referenz verfolgt Sie über jeden Shot. Investieren Sie 5 Minuten, um die richtige zu finden.

Variieren Sie Framings aggressiv. Anfänger filmen alles auf Augenhöhe in Medium. Profis nutzen Close-ups, Low Angles, High Angles, Dollies. Die Vielfalt macht es kinematisch.

Nutzen Sie Stille. Ein 90-Sekunden-Drama braucht keine 90 Sekunden Dialog. Manche der besten Kurzdramen sind zu 50 % stille Reaktionen.

Schauen Sie echte Kurzfilme, bevor Sie Ihren machen. TikTok und YouTube Shorts haben überraschend kinematische Shorts auf der ersten Suchseite zu „short film". Klauen Sie Pacing-Muster.

Kämpfen Sie nicht gegen das Modell. Wenn Ihr Skript etwas verlangt, mit dem die KI ringt, vereinfachen Sie. Arbeiten Sie mit dem, was das Modell gut kann.

Häufige Fragen

Funktioniert dieser Workflow auch mit mehreren Figuren?

Ja. Fixieren Sie 2–3 Figuren zu Beginn von Schritt 3 und referenzieren Sie sie in Prompts per Name. Einschränkung: Teilen sich zwei Figuren das Bild und haben ähnliche Merkmale (gleiches Geschlecht, Alter, Ethnie), rechnen Sie mit gelegentlichem Identity Bleed in gemeinsamen Frames — etwa 10 % der Multi-Charakter-Szenen brauchen einen manuellen Cleanup-Pass.

Funktioniert das für längere Videos (5+ Minuten)?

Theoretisch ja, aber: Kosten wachsen linear, und narrative Kohärenz jenseits von ~3 Minuten ist gerade wirklich schwer. Wir haben Creator gesehen, die drei 90-Sekunden-Bögen zu 5-minütigen Episoden zusammensetzen. Reines 5-Minuten-End-to-End ist machbar, aber mehr Aufwand als 90 Sekunden.

Was, wenn ich kein Referenzbild zeichnen oder fotografieren kann?

Generieren Sie eines mit einer Bild-KI (Midjourney, DALL-E, Stable Diffusion). Wählen Sie das Ergebnis, das Ihrer Vorstellung der Figur am nächsten kommt. Verwenden Sie das als Referenz für den Video-Schritt.

Meine Plattform hat keinen Character Lock. Geht das trotzdem?

Ja, aber rechnen Sie mit dem 3- bis 5-fachen Aufwand für Konsistenz-Cleanup. Workarounds:

In jedem Shot exakt denselben Wortlaut für die Figurenbeschreibung verwenden
Immer ein Referenzbild beilegen
Pro Shot drei Versionen generieren, die konsistenteste auswählen
Mit ~30 % neu zu generierender Shots rechnen, wenn Drift zu offensichtlich wird

Für Narrativ-Arbeit lohnt sich der Wechsel zu einem Tool mit nativer Charakterkonsistenz meist.

Was kostet das in Credits / Dollar?

Stark plattformabhängig. Auf Juying nutzt ein 90-Sekunden-Projekt mit 30 Shots typisch 200–400 Credits, was komfortabel im Free Tier (500 Credits/Monat) liegt oder auf Pro ($49/Monat mit 3000 Credits) trivial ist.

Auf Per-Clip-Plattformen rechnen Sie mit $5–30 pro Projekt, je nach Länge und Qualitätseinstellungen.

Was niemand sagt

Der 60-Minuten-Workflow ist real, aber der erste Versuch der meisten Anfänger dauert 3–4 Stunden. Das Ausbremsen ist nicht die KI, sondern:

Zu viel Zeit am Skript (schreiben Sie irgendetwas, iterieren Sie später)
Schlechte Referenz wählen (5 Minuten in eine gute investieren)
Storyboard-Schritt überspringen (jeder Shot wird „Wide Medium Shot"; das wirkt flach)
Alles neu generieren (regenerieren Sie die schlechtesten 10 %, lassen Sie den Rest)

Nach 2–3 Projekten verdichtet sich der Workflow auf unter eine Stunde. Nach 5 Projekten in 40 Minuten.

Workflow ausprobieren

Juying unterstützt diesen Workflow End-to-End mit einem Free Tier. Wer damit etwas baut: wir sehen es uns gerne an.