أعلنت شركة OpenAI بشكل مفاجئ عن إطلاق نموذجًا جديدًا لتوليد مقاطع الفيديو اعتمادًا على الأوصاف النصية. وأطلقت الشركة على هذا النموذج اسم Sora. وأعلنت الشركة على الصفحة الرسمية لهذا النموذج أنه سيكون قادرًا على توليد مقاطع واقعيةً وخياليةً طبقًا للتعليمات النصية التي تصف هذه المقاطع. وسيسمح هذا النموذج للمستخدمين بتوليد مقاطع مدتها تصل إلى دقيقة كاملة.

نموذج Sora الجديد من OpenAI

سيكون نموذج Sora قادرًا على صناعة المشاهد المعقدة، التي تتضمن عدة شخصيات مختلفة، كما كشفت OpenAI أنه سيتيح استخدام الأنماط المختلفة من الحركة. وكشفت الشركة أيضًا أن نموذج Sora قادرًا على إدراك الأشياء المختلفة الموجودة في الواقع الفيزيائي، كما سيكون قادرًا على الربط بينها وبين أوصافها النصية؛ حتى يتمكن من فهم ما يقصده المستخدم لتوليد المقطع المنشود. 

صورة من أحد المقاطع المُولدة بنموذج Sora

وأضافت الشركة أنها تعمل باستمرار على تدريب وتعليم نموذج Sora على رؤية ومحاكاة العالم الواقعي، بما يتضمن كافة الحركات المختلفة التي تقع في واقعنا الحقيقي؛ حتى يتمكن النموذج من فهم كافة الأوامر النصية التي تصف أحداثًا واقعيةً اعتدنا على رؤيتها بصورة يومية.

سيُتيح النموذج أيضًا إمكانية توليد مقاطع الفيديو باستخدام الصور الثابتة، بالإضافة إلى تعويض الإطارات المفقودة من المقاطع أو زيادة عددها لتسريع حركة الفيديو، كما سيُتيح Sora أيضًا إمكانية مد وتطويل الفيديو من خلال توليد إطارات جديدة في نهاية الفيديو الأصلي. وبينت المقاطع المُولدة بواسطة Sora، والتي نشرتها OpenAI، قدرته المُتقنة على توليد مقاطع تبدو وكأنها مُلتقطة فعلًا في العالم الواقعي.

ومع ذلك، كشفت OpenAI أن Sora ما زال يواجه بعض الصعوبات في المحاكاة الدقيقة لبعض النواحي الفيزيائية في المشاهد المعقدة، كما ظهرت بعض المشاكل في إدراك الاتجاهات الفراغية الموجود في الوصف النصي، مثل الخلط بين اليمين واليسار.

منذ عام 2022، بدأت نماذج توليد الصور بالذكاء الاصطناعي في الانتشار بشكل واسع، وكان أشهرها نموذج Midjourney. وقد بدأت OpenAI أيضًا في مواكبة هذه التقنية من خلال إطلاق نماذج DALL-E التي واجهت عدة تحديات في بداياتها حتى وصلت إلى شكلها المُتقن الحالي مع إصدار DALL-E 3. ومع تطور هذه النماذج، ظل توليد الفيديو مهمةً صعبةً على أغلب أنظمة الذكاء الاصطناعي، نظرًا لتعقيدها الشديد وكثرة العوامل التي تؤثر على جودة المقطع.

ومع ذلك، تحاول أغلب الشركات التقنية الآن على تطوير نماذجها الخاصة لتوليد الفيديو؛ مثل جوجل التي أعلنت منذ أسابيع عن نموذجها الجديد Lumiere، وهو المنافس الأقوى الموجود على الساحة حاليًا لنموذج Sora. وأعلنت آبل أيضًا منذ أيام عن نموذجها الخاص بتحريك الصور الثابتة، وهي خطوة قوية من آبل قد تُساهم في حل أغلب مشاكل هذه الأنظمة، والتي تكمن دائمًا في عملية التحريك.

توفر نموذج Sora

لم تطرح OpenAI نموذج Sora حتى الآن؛ فهو ما زال قيد الاختبارات والتجريب. وكشفت الشركة أن النموذج الآن يخضع للاختبارات الأمنية من قبل فريقها المختص. وأضافت الشركة أنها تحاول جاهدةً في تطبيق أعلى معايير الأمان على هذا النموذج، ليكون متسقًا مع مبادئ سلامة الذكاء الاصطناعي (AI Safety). وكشفت الشركة أيضًا أنها ستضيف بعض البيانات الوصفية (metadata) إلى مقاطع Sora، وذلك لتمييزها ومنع الخلط بينها وبين المقاطع الحقيقية.

طالع أيضًا: خطر الذكاء الاصطناعي..هل يهدد البشرية حقًا؟!

وذكرت OpenAI أيضًا أن Sora سيستبعد كافة الأوامر النصية التي تحتوي على انتهاكات لسياسة الاستخدام؛ مثل الأوامر التي تتضمن العنف، والمحتوى الجنسي، والكراهية، وأسماء المشاهير والشخصيات العامة.