كيف تصنع دراما قصيرة بالذكاء الاصطناعي مدتها 90 ثانية في ساعة واحدة

سير عمل كامل لصناعة دراما قصيرة بالذكاء الاصطناعي مدتها 90 ثانية بشخصيات متسقة عبر أكثر من 30 لقطة في أقل من ساعة.

May 20, 2026·9 min read·tutorial

معظم دروس «الفيلم القصير بالذكاء الاصطناعي» على الإنترنت تُنتج مقاطع 15-30 ثانية بشخصية واحدة وتنتهي. هذه ليست دراما — هذه لوحة مزاج (moodboard).

الدراما القصيرة الحقيقية تحتاج إلى:

قوس سردي كامل (تأسيس → صراع → حل)
لقطات متعددة من زوايا مختلفة
شخصية تبدو كأنها الشخص نفسه طوال الفيديو
إيقاع مناسب
إنهاء بجودة الإنتاج (بلا علامات مائية أو تسميات أو آثار ذكاء اصطناعي)

يُرشدك هذا الدليل إلى تنفيذ كل ذلك في أقل من ساعة، باستخدام أدوات 2026 الحالية.

سنستخدم مثالاً حقيقياً: دراما قصيرة مدتها 90 ثانية بعنوان 《孟婆嫌我烦》 («الليدي مينغبو ضجرة مني»)، صنعها أحد المبدعين على Juying في 60 دقيقة. تحوي القطعة الكاملة أكثر من 30 لقطة، وتظهر فيها الشخصية الرئيسية بشكل متطابق طوال الوقت، وانتشرت على منصات الفيديو القصير الآسيوية.

سير العمل أدناه هو نفسه المُستخدَم.

قبل أن تبدأ: ما تحتاج إليه

الأدوات:

منصة فيديو ذكاء اصطناعي تدعم اتساق الشخصية عبر اللقطات. سنستخدم Juying في هذا الدليل؛ المبادئ تنطبق على غيرها.
نموذج لغوي كبير لتوليد السيناريو. Claude أو GPT-4 يعملان جيداً. كثير من منصات فيديو الذكاء الاصطناعي تتضمن هذه الخطوة.
صورة مرجعية واحدة لشخصيتك الرئيسية (صورة حقيقية، أو بورتريه مولَّد بالذكاء الاصطناعي، أو رسم).

ميزانية الوقت: 60 دقيقة إجمالاً.

مستوى المهارة: مبتدئ. لا حاجة لخبرة سابقة في فيديو الذكاء الاصطناعي.

الخطوة 1: فكرة القصة (دقيقة واحدة)

ابدأ بجملة واحدة. واحدة فقط.

بالنسبة لـ Mengpo، كانت الجملة البذرة:

«الليدي مينغبو، الإلهة التي تقدّم حساء النسيان في العالم السفلي الصيني، ضجرة من روح لا تتوقف عن الثرثرة.»

هذا كل شيء. لا تُفرط في التخطيط في هذه المرحلة. البنية تأتي في الخطوة 2.

القيد: اختر قصة لا تتطلب أكثر من 2-3 شخصيات متمايزة وتتسع في 60-90 ثانية. معظم الدرامات القصيرة الفيروسية فيها بطل أو اثنان، صراع واضح، وحل سريع.

إن علقت، إليك ثلاثة أنماط قصصية تعمل جيداً للقصير بالذكاء الاصطناعي:

نبضة ردة الفعل: يحدث شيء، الشخصية ترد بقوة، حل بمفاجأة. (Mengpo يتبع هذا.)
سوء الفهم: أ يظن أن ب يفعل س، ب يفعل ص فعلاً، الكشف.
التصاعد: شيء صغير يتكرر، يسوء، يبلغ ذروته.

الخطوة 2: ولّد السيناريو (5 دقائق)

مرّر فكرة الجملة الواحدة إلى نموذج لغوي كبير بهذا الموجِّه:

Write a 90-second short drama script based on this idea:
[your one-sentence idea]

Requirements:
- 8-12 scenes, each scene 6-10 seconds
- Specify camera framing for each scene (close-up, medium, wide, etc.)
- Specify lighting and mood
- Include 2-3 lines of dialogue or voiceover where appropriate
- Build a clear arc: setup, conflict, resolution
- End with a memorable beat

المخرَج سيناريو منظَّم. راجعه. اضبط الإيقاع، استبدل المشاهد الباهتة بنبضات أقوى. لا تتمسك به — سيناريوهات الدراما القصيرة تُعاد كتابتها باستمرار.

بالنسبة لـ Mengpo، أنتج النموذج اللغوي 11 مشهداً. أبقى المبدع 9، وأسقط 2 لم يحملا وزناً.

الخطوة 3: ثبّت الشخصية الرئيسية (5 دقائق)

هذه الخطوة التي تتخطاها معظم سير العمل ثم تدفع ثمنها لاحقاً.

ارفع صورة مرجعية واحدة جيدة لشخصيتك الرئيسية إلى منصة فيديو الذكاء الاصطناعي. ينبغي أن تكون الصورة المرجعية:

عالية الدقة (1024×1024 كحد أدنى)
مواجهة أو ثلاثة أرباع
إضاءة متساوية (لا ظلال ثقيلة على الوجه)
شخصية واحدة مؤطَّرة بوضوح (لا وجوه أخرى في الصورة)

تعالج المنصة المرجع وتُنشئ أصل شخصية — يأخذ ذلك عادةً 30-90 ثانية. بمجرد إنشاء الأصل، كل توليد مستقبلي يشير إلى هذه الشخصية سيستخدم الهوية المثبَّتة.

لماذا يهم هذا: بدون تثبيت الشخصية، ستجد نفسك بحلول اللقطة 6 أمام شخص مختلف. ومعه، تظل اللقطة 30 تبدو كنفس الشخصية في اللقطة 1.

إن لم تدعم منصتك أصول الشخصيات الدائمة، فهنا تفشل دراما الذكاء الاصطناعي متعددة اللقطات.

بالنسبة لـ Mengpo، كان المرجع بورتريهاً واحداً مولَّداً بالذكاء الاصطناعي لامرأة كبيرة صارمة وطيبة بأردية حمراء. خمس دقائق: رفع، معالجة، تثبيت.

الخطوة 4: ولّد الستوريبورد تلقائياً (15 دقيقة)

تتضمن منصات فيديو الذكاء الاصطناعي الحديثة مخطط ستوريبورد. مرّر له سيناريوك + شخصيتك المثبَّتة؛ يُنتج ستوريبورد لقطةً بلقطة يحوي:

تأطير اللقطة (قريبة، متوسطة، واسعة)
حركة الكاميرا (ثابتة، اقتراب، بانوراما، عربة)
إعداد الإضاءة
وضعية الشخصية / تعبيرها
الكود الزمني (متى تبدأ هذه اللقطة وتنتهي)

إن لم تكن منصتك تولّد الستوريبورد تلقائياً، يمكنك فعل ذلك يدوياً بكتابة موجِّه لكل لقطة. خصص 15-20 دقيقة إن فعلت ذلك يدوياً.

الستوريبورد المخطَّط جيداً يمنع مشكلة «كل اللقطات تبدو متشابهة» التي يقع فيها المبتدئون. نوّع تأطيراتك: تبادل القريبة مع المتوسطة والواسعة؛ استخدم العربة أو الاقتراب لإضافة حركة؛ لا تصوّر كل مشهد على مستوى العين.

بالنسبة لـ Mengpo، كان للستوريبورد أكثر من 30 لقطة عبر الـ 9 مشاهد — شملت لقطات قريبة لردود فعل الروح، وتفاصيل اليد على الحساء، ولقطات واسعة لإعداد العالم السفلي، ومنظوراً شخصياً عبر البخار.

الخطوة 5: ولّد اللقطات (30 دقيقة)

هذه أطول خطوة لكنها وقت خامل في معظمه — منصتك تولّد اللقطات بالتوازي.

اضغط «توليد». ابتعد. عُد بعد 30 دقيقة.

ما الذي يحدث خلف الكواليس:

أكثر من 30 لقطة تدخل الطابور بالتوازي (إن كانت منصتك تدعم ذلك؛ التوليد التسلسلي يأخذ وقتاً أطول بكثير)
كل لقطة تستخدم embedding شخصيتك المثبَّت
الموجِّهات السلبية المولَّدة تلقائياً تمنع أنماط الانجراف الشائعة
فحوص الاتساق اللاحقة تعيد توليد أي لقطة تنجرف بعيداً

إن لم تتوفر في منصتك توليد متوازٍ أو سعة مخصصة بلا انتظار، فقد تأخذ هذه الخطوة ساعات بدلاً من دقائق. هذا الفرق بين سير عمل 60 دقيقة وآخر يستغرق يوماً.

بالنسبة لـ Mengpo، أخذت هذه الخطوة 28 دقيقة — 30 لقطة، كلها بالتوازي، كلها متسقة.

الخطوة 6: التجميع (3 دقائق)

تنتج معظم منصات فيديو الذكاء الاصطناعي الحديثة تجميعاً أولياً تلقائياً — ترتّب اللقطات بترتيب الستوريبورد.

راجع التجميع. ابحث عن:

مشكلات الإيقاع (لقطة تطول أكثر من اللازم، قطع سريع جداً)
أخطاء الاستمرارية (قفزات إضاءة، انقطاع وضعية الشخصية)
أي لقطة تسرّب فيها انجراف الشخصية

لمشكلات الاستمرارية الحقيقية، أعد توليد تلك اللقطة منفردة. للإيقاع، قُص أو امدد في محرر المنصة.

احتاج Mengpo إلى إعادة توليد لقطتين وقصّ ثانية واحدة من اللقطة الختامية. ثلاث دقائق إجمالاً.

الخطوة 7: إزالة التسميات + الترقية (5 دقائق)

معظم فيديوهات الذكاء الاصطناعي المولَّدة فيها آثار خفية: أعطال نص صغيرة، عناصر شبيهة بالعلامة المائية، شذوذات عرضية. أدوات الإزالة الذكية تنظّف هذه دون إفساد الإطار الأساسي.

ثم ارقِ. مخرجات 4K تبدو أكثر احترافاً من 1080p، خاصةً للمحتوى القصير المُعاد على الشاشات الحديثة الكبيرة.

كلاهما الآن مدمج في المنصات المتكاملة. إن استخدمت أدوات منفصلة، توقع 15-30 دقيقة هنا بدلاً من 5.

الخطوة 8: اللمسة النهائية (دقيقة واحدة)

أضف:

بطاقة عنوان (1-2 ثانية في البداية)
بطاقة نهاية بالاعتماد / المعرّف (ثانية في النهاية)
موسيقى خلفية إن ناسبت (تتضمن معظم المنصات اختياراً موسيقياً)
مسار ترجمة لتوافق المنصات

اللمسة الأخيرة في Mengpo: بطاقة عنوان بحرف صيني واحد وعلامة مائية تعتمد المبدع و Juying معاً.

تدقيق إجمالي الوقت

الخطوة	الوقت
1. فكرة القصة	دقيقة
2. توليد السيناريو	5 دقائق
3. تثبيت الشخصية	5 دقائق
4. الستوريبورد	15 دقيقة
5. توليد اللقطات	30 دقيقة (خامل في معظمه)
6. التجميع	3 دقائق
7. إزالة التسميات + الترقية	5 دقائق
8. اللمسة النهائية	دقيقة
الإجمالي	~65 دقيقة

الـ 30 دقيقة في الخطوة 5 خاملة في معظمها. إن بدأتها وابتعدت، فإجمالي الوقت النشط ~35 دقيقة.

نصائح لجودة أعلى

اختر الصورة المرجعية الصحيحة. مرجع سيئ = تثبيت شخصية سيئ. مرجع ضبابي أو مُضاء بشكل غريب سيلاحقك في كل لقطة. اقضِ 5 دقائق في إيجاد الصحيح.

نوّع التأطير بقوة. المبتدئون يصورون كل شيء على مستوى العين بلقطة متوسطة. المحترفون يستخدمون اللقطات القريبة والزوايا المنخفضة والمرتفعة والعربات. التنوع يجعلها تبدو سينمائية.

استخدم الصمت. دراما 90 ثانية لا تحتاج إلى 90 ثانية من الحوار. بعض أفضل الدرامات القصيرة 50% منها ردود فعل صامتة.

شاهد أفلاماً قصيرة حقيقية قبل صنع فيلمك. TikTok و YouTube Shorts تحوي قصيرات سينمائية بشكل مفاجئ في الصفحة الأولى لأي بحث عن «فيلم قصير». اسرق أنماط الإيقاع.

لا تقاوم النموذج. إن طلب سيناريوك شيئاً يصعب على الذكاء الاصطناعي، بسّطه. اعمل مع ما يجيده النموذج.

أسئلة شائعة

هل يستوعب سير العمل هذا شخصيات متعددة؟

نعم. ثبّت 2-3 شخصيات في بداية الخطوة 3، ثم أَشِر إليها بالاسم في الموجِّهات. القيد: إن تشاركت شخصيتان وقت الشاشة وكانت لهما ملامح متشابهة (نفس الجنس، العمر، العِرق)، فتوقع تسرّب هوية عرضي في الإطارات المشتركة — نحو 10% من مشاهد تعدد الشخصيات تحتاج إلى مرور تنظيف يدوي.

هل يعمل هذا للفيديوهات الأطول (5 دقائق فأكثر)؟

نظرياً نعم، لكن: التكلفة تنمو خطياً، والترابط السردي بعد ~3 دقائق صعب فعلاً الآن. رأينا مبدعين يخيطون ثلاثة أقواس مدة كل منها 90 ثانية في حلقات 5 دقائق. النهاية الكاملة المباشرة لـ 5 دقائق ممكنة لكنها أكثر عملاً من 90 ثانية.

ماذا لو لم أستطع رسم أو تصوير صورة مرجعية؟

ولّد واحدة بذكاء اصطناعي للصور (Midjourney أو DALL-E أو Stable Diffusion). اختر النتيجة الأقرب لرؤيتك للشخصية. استخدمها كمرجعك في خطوة الفيديو.

منصتي لا تدعم تثبيت الشخصية. هل ما زال بإمكاني فعل ذلك؟

يمكنك، لكن توقع إنفاق 3-5 أضعاف الوقت في تنظيف الاتساق. الحلول البديلة:

استخدم نفس الموجِّه حرفياً لوصف الشخصية في كل لقطة
أدرج صورة مرجعية دائماً
ولّد 3 إصدارات من كل لقطة، اختر الأكثر اتساقاً
خطّط لإعادة توليد ~30% من اللقطات حين يكون الانجراف واضحاً جداً

للأعمال السردية، التحول إلى أداة تدعم اتساق الشخصية أصلياً يستحق العناء عادةً.

كم تكلف هذه العملية بالأرصدة / الدولارات؟

يختلف بشدة بحسب المنصة. على Juying، مشروع 90 ثانية بـ 30 لقطة يستهلك عادةً 200-400 رصيد، وهو ضمن الباقة المجانية بسهولة (500 رصيد/شهر) أو زهيد على Pro (49$/شهر مع 3000 رصيد).

على المنصات لكل مقطع، توقع 5-30$ لكل مشروع بحسب الطول وإعدادات الجودة.

الشيء الذي لا يخبرك به أحد

سير العمل في 60 دقيقة حقيقي، لكن المحاولة الأولى لمعظم المبتدئين تأخذ 3-4 ساعات. التباطؤ ليس بسبب الذكاء الاصطناعي؛ بل بسبب:

قضاء وقت طويل جداً على السيناريو (اكتب شيئاً وكرّر لاحقاً)
اختيار صورة مرجعية سيئة (اقضِ الـ 5 دقائق لإيجاد جيدة)
تخطي خطوة الستوريبورد (كل لقطة تصبح «لقطة متوسطة واسعة»؛ النتيجة تبدو مسطحة)
إعادة توليد كل شيء (أعد توليد الأسوأ بنسبة 10%، اترك الباقي)

بعد 2-3 مشاريع، يضغط سير العمل إلى أقل من ساعة. بعد 5 مشاريع، يمكنك إنجازه في 40 دقيقة.

جرّب سير العمل

Juying تدعم سير العمل هذا بأكمله من البداية للنهاية مع باقة مجانية. إن صنعت شيئاً بهذا السير، يسعدنا أن نراه.