Google I/O 2026: إطلاق Gemini Omni Flash لإنشاء الفيديو بقدرات فائقة!

شهد مؤتمر Google I/O 2026 إطلاق نموذج Gemini Omni Flash، وهو أول نموذج ضمن عائلة جديدة تستهدف دمج إنشاء الفيديو والصور والصوت داخل نظام موحد يعمل بالذكاء الاصطناعي. توفرت الأداة مباشرة داخل تطبيق Gemini ومنصة Flow التابعة لجوجل، إلى جانب دمجها مع خدمة YouTube Shorts، على أن يصل دعم واجهات البرمجة للمطورين خلال الأسابيع المقبلة.

Gemini Omni Flash يدمج إنشاء الفيديو والصور والصوت داخل نموذج ذكاء اصطناعي موحد.
جوجل أطلقت الأداة داخل Gemini و Flow و YouTube Shorts مباشرة.
النموذج يدعم تعديل الفيديوهات بالأوامر النصية والمراجع البصرية.
الميزة الجديدة تعزز تنافس جوجل في سوق المحتوى التوليدي.

اقرأ أيضًا: أسرار تحديث جوجل الذي قلب موازين المنزل الذكي بدعم Gemini

تأتي هذه الخطوة ضمن مساعي جوجل لتوسيع حضورها في سوق أدوات الذكاء الاصطناعي التوليدي، خاصة مع احتدام المنافسة بين الشركات العاملة في تطوير أنظمة إنتاج المحتوى الرقمي. يعتمد النموذج الجديد على الجمع بين قدرات Gemini الخاصة بالفهم والاستدلال، وتقنيات جوجل المستخدمة سابقًا في توليد الوسائط المتعددة، بهدف إنشاء نظام قادر على التعامل مع أنواع مختلفة من المحتوى داخل نموذج واحد.

اعتمدت جوجل خلال الفترة الماضية على بنية منفصلة للوسائط؛ إذ استُخدم نموذج Veo لإنتاج الفيديو، في حين تولت أنظمة أخرى إنشاء الصور. يغير Gemini Omni Flash هذا التوجه عبر دمج هذه المهام داخل منصة موحدة، وهو ما تصفه الشركة بأنه خطوة نحو تطوير نموذج يستطيع إنشاء أي نوع من المحتوى انطلاقًا من أي مدخلات يقدمها المستخدم.

قدرات Gemini Omni Flash الجديدة

يركز نموذج Gemini Omni Flash الجديد على تقديم مجموعة من الخصائص المرتبطة بإنتاج الفيديو والتعديل عليه بصورة أكثر تفاعلًا ومرونة. تشير جوجل إلى أن النموذج يتمتع بفهم أفضل لطبيعة الحركة والبيئات المحيطة، بما يسمح بإنتاج مشاهد أكثر اتساقًا. يشمل ذلك تعامل العناصر داخل الفيديو مع الأحداث بصورة مترابطة، إلى جانب المحافظة على تسلسل منطقي للحركة والسرد البصري.

تُعد معالجة التفاصيل الفيزيائية داخل الفيديوهات المولدة بالذكاء الاصطناعي من التحديات المعقدة في هذا المجال، خاصة عند التعامل مع الكتابة أو حركة الأجسام الدقيقة. وأظهرت النماذج التجريبية التي استعرضتها الشركة قدرة النظام على الحفاظ على صحة المعادلات المكتوبة داخل المشاهد التعليمية، بجانب إنتاج لقطات أقرب إلى الواقعية مقارنة بإصدارات سابقة.

يدعم Gemini Omni Flash كذلك ميزة الحفاظ على اتساق الشخصيات داخل الفيديوهات. تتيح هذه الخاصية تعريف شخصية واحدة ثم استخدامها في مشاهد متعددة مع المحافظة على الملامح نفسها، حتى عند تغير الإضاءة أو المواقع أو طبيعة الحركة.

تُمثل هذه النقطة أحد أبرز التحديات التي واجهت نماذج توليد الفيديو خلال الأعوام الماضية، خاصة في الأعمال التي تتطلب استمرارية بصرية مثل الحملات الإعلانية أو المحتوى القصصي أو النماذج الأولية للألعاب.

يقدم نموذج Gemini Omni Flash أيضًا أدوات تحرير تعتمد على الأوامر النصية والمراجع البصرية، حيث يمكن للمستخدم إدخال صورة أو مقطع فيديو، ثم طلب تعديل البيئة المحيطة أو إضافة عناصر جديدة أو تغيير الأسلوب الفني للمشهد باستخدام تعليمات مكتوبة بلغة طبيعية.

حدث Google I/O: إطلاق Gemini Omni Flash لإنشاء الفيديو بقدرات فائقة!

Gemini Omni Flash داخل المنافسة التقنية

تشمل الخصائص الجديدة كذلك ميزة إعادة مزج الفيديوهات، التي تسمح بإعادة تخيل المشهد المصور بصورة فورية. يستطيع المستخدم رفع فيديو حقيقي ثم توجيه النموذج لتغيير الحركة أو الخلفية أو طريقة العرض، مع تنفيذ التعديلات عبر محادثة مباشرة مع النظام، دون الاعتماد على أدوات تحرير احترافية منفصلة.

تستند جوجل في إطلاق Gemini Omni Flash إلى سلسلة من الإصدارات السابقة التي ركزت على تطوير قدرات الفهم متعدد الوسائط. فقد حققت نماذج Gemini الحديثة نتائج متقدمة في عدد من الاختبارات التقنية، من بينها معيار ARC-AGI-2، إلى جانب الأداء القوي لإصدارات Veo الخاصة بتوليد الفيديو.

يحمل اسم Flash دلالة مرتبطة بطريقة تسمية النماذج لدى جوجل؛ إذ تستخدم الشركة هذا المصطلح عادة للإشارة إلى النماذج الأخف والأسرع والموجهة للاستخدام الواسع. يشير ذلك إلى احتمال تطوير إصدارات أخرى أكثر قوة ضمن عائلة Omni مستقبلًا، مع تركيز متوقع على الاستخدامات الاحترافية وواجهات البرمجة والتطبيقات المؤسسية.

من المتوقع أن يسهم فتح واجهات البرمجة الخاصة بالنموذج أمام المطورين في توسيع استخداماته خلال الفترة المقبلة، خاصة في مجالات الإعلان والتعليم وصناعة المحتوى الترفيهي. كما قد تستفيد شركات الألعاب والإنتاج المرئي من خصائص الحفاظ على الشخصيات وإعادة تصميم المشاهد بصورة فورية.

تؤكد هذه الخطوة في رأيي، استمرار التحول داخل قطاع الذكاء الاصطناعي نحو بناء أنظمة متعددة الوسائط، قادرة على فهم النصوص والصور والفيديو والصوت والتعامل معها داخل نموذج واحد. ويبدو أن جوجل تراهن من خلال Gemini Omni Flash على تقديم منصة متكاملة تجمع بين الإنشاء والتحرير والتعديل ضمن تجربة موحدة تستهدف المستخدمين العاديين والمطورين في الوقت نفسه.