في 4 ثوان فقط | جوجل تطلق أحدث نماذجها لتوليد الصور والفيديو!

أطلقت جوجل نموذجين جديدين للذكاء الاصطناعي يركزان على تسريع إنشاء الصور ومقاطع الفيديو، في خطوة جديدة ضمن خططها لتوسيع منظومة أدوات الذكاء الاصطناعي التوليدي. يشمل الإعلان إطلاق نموذج Nano Banana 2 Lite بصورة عامة لجميع المستخدمين، إلى جانب إتاحة نموذج Gemini Omni Flash في مرحلة المعاينة العامة. يأتي ذلك ضمن إستراتيجية جوجل الرامية إلى توفير أدوات أكثر كفاءة لإنتاج المحتوى المرئي.

Nano Banana 2 Lite ينشئ الصور خلال أربع ثوان مع تحسين الجودة وخفض التكلفة.
Gemini Omni Flash يولد الفيديو ويعدله بالأوامر النصية مع إنشاء صوت متزامن.
جوجل دمجت النموذجين في خدماتها ومنصاتها لدعم المطورين والمستخدمين.
النموذجان يدعمان توثيق المحتوى بعلامات مائية وبيانات اعتماد لتعزيز الشفافية.

يُعد Nano Banana 2 Lite أسرع نموذج لتوليد الصور لدى جوجل حتى الآن؛ إذ يستطيع إنشاء صورة خلال نحو أربع ثوان فقط. وتبلغ تكلفة إنتاج الصورة الواحدة بدقة ألف بكسل نحو 0.034 دولار، وهو ما يجعله مناسبًا للتطبيقات التي تتطلب إنتاج أعداد كبيرة من الصور خلال وقت قصير.

جوجل توسع أدوات الذكاء الاصطناعي

يحمل النموذج الاسم التقني Gemini 3.1 Flash-Lite Image، ويأتي ليخلف الإصدار السابق Nano Banana مع مجموعة من التحسينات التي تشمل جودة الصور، والحفاظ على اتساق الشخصيات والعناصر داخل الصور، إلى جانب تحسين عرض النصوص المضمنة داخل التصميمات.

تستهدف جوجل من خلال هذا النموذج الاستخدامات التي تعتمد على الإنتاج الكثيف للصور، مثل اختبار نسخ متعددة من الإعلانات الرقمية، وإنشاء المحتوى لمنصات التواصل الاجتماعي، إضافة إلى التطبيقات التجارية التي تحتاج إلى إنشاء صور بسرعة وعلى نطاق واسع.

يمنح النموذج المطورين إمكانية دمجه داخل تطبيقاتهم عبر واجهات برمجة التطبيقات الخاصة بجوجل، بما يساعد على تقديم خدمات تعتمد على إنشاء الصور بصورة فورية مع الحفاظ على تكلفة تشغيل منخفضة مقارنة بالنماذج الأكبر حجمًا.

قدمت جوجل أيضًا نموذج Gemini Omni Flash، الذي دخل مرحلة المعاينة العامة، ويختص بإنشاء مقاطع الفيديو وتعديلها باستخدام أوامر مكتوبة باللغة الطبيعية. يتيح النموذج للمستخدم وصف المشهد أو طلب تعديلات مختلفة دون الحاجة إلى أدوات تحرير تقليدية أو أوامر معقدة.

يستطيع النموذج التعامل مع النصوص والصور ومقاطع الفيديو في الوقت نفسه، ما يمنحه مرونة أثناء إنشاء المحتوى أو تعديله. تبلغ تكلفة إنتاج الفيديو نحو 0.10 دولار لكل ثانية من المقطع الناتج. وتصل مدة الفيديو التي يستطيع النموذج إنتاجها حاليًا إلى عشر ثوان، مع تأكيد جوجل أنها تعمل على دعم مدد أطول خلال المراحل المقبلة من تطوير الخدمة.

يتميز Gemini Omni Flash بقدرته على إنشاء الصوت بالتزامن مع الفيديو، دون الحاجة إلى إضافته لاحقًا، كما يحافظ على اتساق الشخصيات والأسلوب البصري أثناء تنفيذ التعديلات المتتالية، وهو ما يساعد على إنتاج محتوى أكثر انسجامًا في المشروعات التي تتطلب تعديلات متعددة.

أوضحت جوجل أن النموذج جرى تصميمه ليتيح تجربة تفاعلية، حيث يستطيع المستخدم مواصلة تعديل الفيديو من خلال المحادثة نفسها، مع تقديم تعليمات جديدة للحصول على النتيجة المطلوبة دون إعادة إنشاء المشروع بالكامل.

في 4 ثوان فقط | جوجل تطلق أحدث نماذجها لتوليد الصور والفيديو!

استخدمات نماذج جوجل الجديدة

أتاحت جوجل النموذجين عبر منصة Google AI Studio، وواجهة Gemini API، إضافة إلى منصة Gemini Enterprise Agent Platform المخصصة للشركات والمؤسسات التي تطور تطبيقات تعتمد على تقنيات الذكاء الاصطناعي.

امتد طرح النموذجين أيضًا إلى عدد من خدمات جوجل الموجهة للمستخدمين؛ إذ بدأت الشركة دمجهما داخل تطبيق Gemini، وميزة AI Mode في محرك البحث، ومنصة NotebookLM، وتطبيق Google Photos، وخدمة Google Flow، إضافة إلى Google Ads.

يبرز من بين الاستخدامات الجديدة اعتماد منصة NotebookLM على نموذج Nano Banana 2 Lite لتشغيل ميزة جديدة تحمل اسم Short Video Overviews. تعتمد هذه الميزة على تحويل المستندات التي يرفعها المستخدم إلى مقاطع فيديو عمودية تصل مدتها إلى نحو ستين ثانية، مع تقديم شرح صوتي ورسوم توضيحية تساعد على تبسيط المعلومات وعرضها بطريقة تعليمية.

بدأت جوجل طرح هذه الميزة للمستخدمين الذين تبلغ أعمارهم ثمانية عشر عامًا فأكثر، على الويب وهواتف أندرويد وآيفون، مع دعم اللغة الإنجليزية في المرحلة الأولى. وأكدت الشركة أن عددًا من المؤسسات الكبرى بدأ بالفعل في الاستفادة من النموذجين الجديدين، من بينها Adobe، ومنصة Figma.

ركزت جوجل كذلك على جانب توثيق المحتوى المولد بالذكاء الاصطناعي؛ إذ أوضحت أن النموذجين يستخدمان بصورة افتراضية تقنية SynthID لإضافة علامات مائية رقمية غير ظاهرة، إلى جانب دعم بيانات اعتماد C2PA التي تساعد على توضيح مصدر المحتوى وآلية إنشائه، بما يعزز الشفافية ويمنح المستخدمين والمؤسسات وسائل إضافية للتعرف على المحتوى المنتج باستخدام الذكاء الاصطناعي.

يُبرز هذا الإطلاق في رأيي، تسابق شركات التكنولوجيا على تطوير نماذج تجمع بين السرعة وانخفاض التكلفة. ويبدو أن المرحلة المقبلة ستركز بصورة أكبر على دمج أدوات إنشاء الصور والفيديو في التطبيقات التي يستخدمها الأفراد والشركات باستمرار.