شركة Sber تطلق مجموعة من أحدث الشبكات العصبية الروسية

خبر صحفي - أعلنت Sber عن إتاحة أوزان نموذجين جديدين من سلسلة GigaChat بتقنية Mixture of Experts (MoE) — Ultra Preview وLightning — وكلاهما مُدرّب من الصفر لمهام اللغة الروسية. كما كشفت عن الجيل الجديد من نماذج التعرف على الكلام GigaAM-v3 القادرة على التعامل مع علامات الترقيم والتطبيع اللغوي.

بالإضافة إلى ذلك، أصبحت جميع نماذج توليد الصور والفيديو من عائلة Kandinsky 5.0 — Video Pro, Video Lite, Image Lite — متاحة للجمهور. تتميز هذه النماذج بفهم أصيل للأوامر باللغة الروسية، ومعرفة سياقية بالثقافة الروسية، وقدرة قوية على توليد نصوص سيريلية داخل الصور والفيديوهات. كما تم إطلاق نماذج K-VAE 1.0 الخاصة بترميز وفك ترميز المحتوى البصري، وهي أدوات محورية في تدريب نماذج التوليد البصري وتُعد من الأفضل عالميًا في مجالها.

يتم توزيع الشفرة والأوزان لجميع هذه النماذج بموجب رخصة MIT، ما يسمح بالاستخدام التجاري الكامل.

تطوير ذكاء اصطناعي على مستوى عالمي يتطلب أمرين: موارد ضخمة وفِرق بحث وتطوير رفيعة المستوى. لدينا الاثنين في Sber. لكن الأهم هو المشاركة، وليس الاحتكار. هدفنا أن نكون أساسًا مفتوحًا للابتكار على مستوى البلاد، ولهذا ننشر أوزان النماذج. هذه لحظة محورية: يمكن لأي شركة في روسيا تثبيت هذه النماذج داخل أنظمتها المغلقة، وتخصيصها باستخدام بيانات حساسة، مع الحفاظ على التحكم الكامل بمعلوماتها. هذا هو المعنى الحقيقي للسيادة التكنولوجية: ذكاء اصطناعي يخدم الأمة بأكملها ويقود التحول الاقتصادي. كما سنوفر قريبًا نموذج Ultra لعملائنا من الشركات بتكلفة تشغيل أقل ومهيأة للنشر الداخلي.
- أندريه بيلِفتسيف، نائب الرئيس الأول ورئيس قسم التكنولوجيا والذكاء الاصطناعي في Sberbank

GigaChat Ultra و GigaChat Lightning

تم توسيع سلسلة GigaChat بإضافة Ultra Preview وLightning:

GigaChat Ultra Preview

أكبر وأقوى نموذج في السلسلة، وهو أول نموذج بهذا الحجم يُطوَّر في روسيا. ورغم أنه ما زال قيد التدريب، إلا أنه يتفوق على نماذج دولية مثل DeepSeek V3.1 في أداء اللغة الروسية، متصدرًا نتائج معيار MERA. ورغم ضخامته، يتمتع بسرعة تنفيذ أعلى من النموذج السابق GigaChat 2 Max. إتاحة النموذج مفتوحًا تمكّن المطورين من تخصيصه في بيئات مغلقة تتطلب خصوصية صارمة وجودة بيانات عالية.

GigaChat Lightning

نموذج خفيف وسريع مصمم للعمل محليًا على أجهزة محمولة أو حواسيب شخصية، مع سرعة تطوير عالية. يتفوق في مهام اللغة الروسية على Qwen3-4B ويعادل قدراته في الحوار وتحليل الوثائق والتطبيقات التجارية. كلا النموذجين يأتيان مع دعم أدوات خارجية، خصوصًا ميزتين رئيسيتين: تنفيذ الكود والذاكرة.

GigaAM-v3

تقدّم Sber خمسة نماذج مفتوحة المصدر جديدة للتعرف التلقائي على الكلام، مناسبة للاستخدام الصناعي والتجاري. تم توسيع مرحلة ما قبل التدريب من 50 ألف ساعة إلى 700 ألف ساعة من الصوت.

يدعم GigaAM-v3 الترقيم والتطبيع اللغوي، ويضاهي جودة Whisper من OpenAI، بل يتفوق عليه بوضوح في دقة التعرف.

تم بناء تقنيات عديدة داخل Sber اعتمادًا على هذا النموذج، بما في ذلك التعرف على الكلام، تحويل النص إلى كلام، وقدرة GigaChat على معالجة الصوت والفيديو.

Kandinsky 5.0

عائلة Kandinsky 5.0 تقدم مجموعة نماذج قوية:

Image Lite لإنشاء صور عالية الجودة ودعم التحرير.
Video Lite والنموذج الأكثر تقدّمًا Video Pro لتوليد الفيديو من النص أو تحريك الصور.

Image Lite يقدم صورًا عالية الوضوح، يفهم السياق الثقافي الروسي بعمق، ويدعم إنشاء نصوص لاتينية وسيريلية. Video Pro ينتج فيديو بدقة HD بطول 10 ثوانٍ وبمعدل 24 إطارًا، ويتفوق على Wan-2.2-A14B ويقترب من جودة Veo 3.

احتاج تطوير Kandinsky 5.0 إلى تدريب على مليار صورة و300 مليون فيديو، إضافة إلى أكثر من مليون مادة متعددة الوسائط لضبط الجودة والسياق. في المرحلة النهائية، تم الاعتماد على بيانات عالية الجودة أنشأها مصممون محترفون لضمان انسجام الأسلوب والدقة البصرية. تفتح هذه النماذج آفاقًا واسعة للتطبيقات الإبداعية والتجارية، من أدوات الفيديو الشخصية إلى حلول إنتاج المحتوى الاحترافي.

K-VAE 1.0

تعمل نماذج التوليد الحديثة داخل فضاءات كامنة — غير مرئية للمستخدم — لتسهيل التدريب السريع وتقليل التكلفة الحاسوبية. تقدم Sber الآن نماذج K-VAE 1.0 للصور (ثنائي الأبعاد) والفيديو (ثلاثي الأبعاد)، والمطورة من الصفر لترميز البيانات البصرية وإعادة بنائها بدقة عالية. تُعد هذه النماذج الأفضل عالميًا ضمن فئة النماذج المفتوحة المصدر، وإتاحتها سيرفع مستوى تقنيات التوليد عالميًا.