أحدث إصدار شركة ناشئة صينية تدعى DeepSeek لنموذج لغة كبير جديد (LLM) ضجة في صناعة الذكاء الاصطناعي العالمية، حيث أظهرت اختبارات المُقارنة أنّ DeepSeek V3 تفوق على نماذج مُنافسة من أمثال ميتا و OpenAI مُنشئ ChatGPT.

قالت الشركة الصينية في منشور على WeChat إن نموذجها الذي يحمل نفس الاسم، DeepSeek V3، يأتي مع 671 مليار معلمة ويتم تدريبه في حوالي شهرين بتكلفة 5.58 مليون دولار، باستخدام موارد حوسبة أقل بكثير من النماذج التي طورتها شركات التكنولوجيا الأكبر.

اقرأ أيضًا:

ما هو الذكاء الاصطناعي، كيف يعمل؟ وهل يهدد البشرية

أفضل تطبيقات البحث بالذكاء الاصطناعي في 2024

يشير LLM إلى التكنولوجيا التي تدعم خدمات الذكاء الاصطناعي التوليدي مثل ChatGPT. في الذكاء الاصطناعي، يُعد العدد الكبير من المعلمات محوريًا في تمكين LLM من التكيُّف مع أنماط البيانات الأكثر تعقيدًا وإجراء تنبؤات دقيقة.

في رده على التقرير الفني للشركة الناشئة الصينية حول نموذج الذكاء الاصطناعي الجديد، قال عالم الكمبيوتر أندريه كارباثي -أحد مؤسسي OpenAI- في منشور على منصة التواصل الاجتماعي X: "تجعل DeepSeek الأمر يبدو سهلاً ... من خلال إصدار أوزان مفتوحة لبرنامج LLM من الدرجة الأولى تم تدريبه بميزانية ضئيلة".

يشير مُصطلح الأوزان المفتوحة إلى إصدار المعلمات المُدربة مُسبقًا لنموذج الذكاء الاصطناعي، مما يسمح لجهة خارجية باستخدام النموذج للاستدلال والضبط الدقيق فقط. لا يتوفر رمز تدريب النموذج ومجموعة البيانات الأصلية وتفاصيل البنية ومنهجية التدريب.

يُظهر تطوير DeepSeek لبرنامج LLM -بجزء بسيط من رأس المال الذي تستثمره الشركات الكبرى مثل Meta و OpenAI عادةً- مدى تقدم شركات الذكاء الاصطناعي الصينية، على الرغم من العقوبات الأمريكية التي منعت وصولها إلى أشباه الموصلات المُتقدمة المُستخدمة في نماذج التدريب.

باستخدام بنية جديدة مُصممّة لتحقيق تدريب فعال من حيث التكلفة، احتاجت DeepSeek إلى 2.78 مليون ساعة وحدة مُعالجة رسومية فقط -وهو إجمالي الوقت الذي تستخدمه كروت الشاشة لتدريب LLM- لنموذج DeepSeek V3.

استخدمت عملية تدريب الشركة الناشئة كروت الشاشة H800 المُصممّة خصيصًا للصين من Nvidia.

احتاجت هذه العملية أقل بكثير من 30.8 مليون ساعة معالجة GPU التي احتاجتها شركة Meta لتدريب نموذج Llama 3.1 على شرائح H100 الأكثر تقدمًا من إنفيديا، والتي لا يُسمح بتصديرها إلى الصين.

كتب كارباثي في ​​منشوره على X: "يبدو أن DeepSeek V3 هو نموذج أقوى حيث يبلغ عدد ساعات وحدة معالجة الرسوميات 2.8 مليون ساعة فقط".

أظهر التقرير الفني الذي نشرته شركة DeepSeek عن V3 أن برنامجها LLM تفوق على برنامج Meta Llama 3.1 وبرنامج Alibaba Group Holdings Qwen 2.5 في سلسلة من الاختبارات المعيارية لتقييم قدرات نظام الذكاء الاصطناعي من فهم النصوص وتوليدها، ومعرفة الخبراء في المجال، والأكواد البرمجية وحل المشكلات الرياضية.

أظهرت نفس الاختبارات المعيارية أن نتائج DeepSeek V3 تتطابق مع نتائج برنامج GPT-4o من OpenAIوبرنامج Claude 3.5 Sonnet من Anthropic المدعومة أمازون.