معمارية بطاقات GF104/Fermi التعريف المثالي للحلّ المؤقت ؟


صورة تقريبية لنواة GF104 ، (القلب في منتصف النواة ، اللون الأصفر )،لكن الشركة لا تنوي أن تتخلي عن مزاياها بعد، ولا عن سياستها الأساسية ، كما لن تستخدم برنامج القيادة في تعويض النسبة الباقية ، بل ستستخدم بدلا من ذلك العتاد نفسه ، عتاد القلب ،زادت الشركة من تعقيد هذا القلب ، بحيث أصبح من مسئولياته فحص البيانات الرسومية الواردة اليه ، ومحاولة استخراج بيانات لثلاثة مظللات وتمريرها خلال بوابتين فقط ،لكن هذه العملية تعتمد بالدرجة الأولي علي حسن ترتيب البيانات التي يستقبلها القلب ، فاذا كانت حسنة الترتيب ، فان التوزيع سيكون ممكنا بالطريقة السابق ذكرها ، أما اذا كان الترتيب سيئا ، فسيعجز القلب عن فعل ذلك ، وسيكتفي يتوزيع البيانات لمظللين من خلال البوابتين ، تاركا المظلل الثالث عاطلا عن العمل .
وهذا يعني أنه في أحسن الظروف ، سوف يتم استغلال كل مظللات البطاقة ، لكن في أسوأ الظروف فان ثُلث المظُللات سيكون شاغرا ،وهذا بالضرورة يؤدي الي أن يكون تشعّب وتدفق البيانات في أنوية GF104 أقل سلاسة ومباشرة من أنوية GF100 ، فالبيانات في GF104 أكبر حجما من قدرة منظومة التوزيع بنسبة 33% (في GF100 فان النسبة هي 0%)، لكنها تظل في نفس الوقت أكثر سلاسة بكثير من بطاقات AMD HD 5000 ، والتي تكون فيها البيانات أكبر من قدرة منظومة التوزيع بنسبة 80% ،ولأن النسبة هي 33% فقط ، فان القلب لا يعاني من الكثير من العقبات في مهمته ، وينجح بالفعل في توزيع النسبة الزائدة في معظم الحالات ، باستثناء حالات خاصة تحت ظروف خاصة ،ونفهم من هذا أن التحسينات التي قامت بها الشركة علي جبهة القلب ، هي اختصارات في منظومة التوزيع بالأساس ، وذلك في محاولة للتقليل من حجم الأنوية ، واستهلاكها للطاقة ، ولقد نجحت الشركة في ذلك ،لكن هل يثبت هذا فرضية المعمارية المؤقتة ، أم ينفيها ؟
المُظللات (Shader Units / Stream Processors /Cuda Cores) :
عدد المظللات في النواة الكاملة هو 384 مظلل ، ولكل ثلاثة مظللات بوابيتن للتوزيع فقط ، أي أن البطاقة تحتوي علي 256 مظلل في اتصال مباشر مع القلب (بالبوابات) ، وتحتوي علي 128 مظلل في اتصال غير مباشر ، والمجموعة الأخيرة هي المجموعة المهددة بأن تصبح عاطلة عن العمل في حالة فشل القلب في مهمته الجديدة ،دور المظللات هنا سيكون معالجة المضلّعات ،وكما في GF100 ، جاءت مظللات GF104 بحجم أكبر من مظللات AMD ، بسبب عدد دوائرها الكهربية الأكبر ، والتي تسهل الوصول الي ترددات مرتفعة ، لكن أتت بحجم أقل من مظللات GF100 ، بسبب الاختصار في عدد بوابات التوزيع .
وبهذا احتفظت NVIDIA بمنظومة التردد العالي والاتصال (شبه) الكامل بالقلب ، وهي المنظومة التي تعطي لبطاقات NVIDIA اليد العليا في أي تطبيق رسومي (ألعاب ) أو حوسبي (برامج) ، حيث تحقق تشعّب كفأ للبيانات مع سرعة معالجة ممتازة في نفس الوقت ، وان كانت في بطاقات GF104 أقل كفاءة من بطاقات GF100 ، بسبب الاختصار من بوابات التوزيع ،تعمل المظللات بتردد 1350MHz في بطاقة GTX 460 ، بينما أتت في بطاقة GTS 450 بتردد 1566MHz وهو أعلي تردد في عائلة Fermi علي الاطلاق .
وعلي الرغم من أن مظللات NVIDIA تمتلك القدرة علي العمل بترددات أكثر ، الا أن الشركة لا ترفع منها كثيرا كوسيلة للتحكم في استهلاك الطاقة ، و مع أن مظللات GF104 تميزت بالقدرة علي العمل علي ترددات أعلي حتي من GF100 ، بسبب خرجها الحراري الأقل (كنتيجة مباشرة لحجمها الأصغر) ، الا أن الشركة لم ترفع من تردداتها كثيرا لنفس السبب ، لكن هذا لم يمنع من تجسّد هذه القدرة في صورة القابلية الممتازة لكسر سرعة تلك المظللات ، والتي برزت في أنوية GF104 أكثر من أي وقت مضي.

مناطق المظللات محددة باللون الأحمر ، ويمكنك أن تعد 8 مناطق (مصفوفات تظليل) تتجمع فيها المظللات ، 4 بالأعلي و 4 بالأسفل ،ويبدو أن عائلة Fermi لم تسلم من تعطيل المظللات في أنويتها حتي مع البطاقات المتوسطة ، حيث أتت بطاقة GTX 460 بعدد 332 مظلل فقط (من أصل 384)، واحتوت علي 48 مظلل معطلين بشكل كامل ، ومع التردد المنخفض نسبيا لها (1350MHz) ، أصبح ذلك سببا في احباط نسبي للمُتحمسين ،وسبب تعطيل المظللات في GTX 460 غير معلوم حتي الآن ، لكن السبب الأرجح هو منع البطاقة من الاقتراب من أداء GTX 470 ، وهو الهدف الذي يمكن الوصول اليه في يسر بفضل تردد GTX 460 المرٌتفع (أعلي من GTX 470 بـ12%) ،تعطيل المظللات لغرض تجاري في النواة الكبري لمعمارية جديدة ، هل يؤهل هذا تلك المعمارية الجديدة لكي تحمل لقب المعمارية المؤقتة ؟
وحدات الرسم Rasterizers :
وحدات الرسم هي المسئولة عن عملية ملأ الألوان بين المضلّعات ، وفي بطاقات GF104 توجد وحدتين للرسم قادرتين علي التعامل مع مضلعين ، وذلك في مقابل أربعة وحدات في أنوية GF100، ووحدة رسم واحدة في بطاقات AMD ،ونتيجة لهذا تستطيع بطاقات NVIDIA التعامل مع عدد كبير من المضلعات بكفاءة أفضل من AMD ، وخصوصا في حالات الترصيع Tessellation،تستطيع بطاقة GTX 460 معالجة 1350 مليون مضلّع في الثانية الواحدة، وهذا أقل من نصف قدرة GTX 480 ، والتي تبلغ 2800 مليون مضلع في الثانية ، لكنها تظل أعلي من قدرة HD 5870 والتي تبلغ 850 مليون مضلع فقط ،مقارنة ببطاقة GTX 465 ، وهي أصغر أنوية GF100 أداء ، نجد أن أنوية GF104 أقل منها قدرة في معالجة المضلعات ، فبطاقة GTX 465 تستطيع التعامل مع 1821 مليون مضلع في مقابل 1350 مليون مضلع في GTX 460 (أي أعلي بنسبة 34%)،ونتيجة لهذا فان أداء أنوية GF104 أقل في الترصيع من أداء كل أنوية GF100 .
و بغض النظر عن ذلك فان NVIDIA لا تسمح لبطاقاتها بالوصول الي قدراتها النظرية الكاملة في معالجة المضلعات ، فتحليل برنامج القيادة أظهر بما لا يدع مجالا للشك في أن الشركة تقُيدّ برمجيا قدرة أنوية GF100 و GF104 علي هذه الجبهة ، ولا تسمح لها بالوصول الي أقصي طاقتها الا في حالات الترصيع ،والسبب في ذلك هو رغبة الشركة في تمييز عائلة Quadro الاحترافية عن عائلة Geforce الاستهلاكية ، فالأولي لا تأتي بأي قيد برمجي علي معالجة المضلعات ، ولهذا تستطيع الوصول لمستويات عالية للغابة علي هذه الجبهة ، يستفيد منها المصممون والمطورون في عملهم ، أما الثانية فلم ينالها من الحظ نصيب الا في الترصيع فقط .
للشركة الحق في فعل ما يحلو لها لتسويق منتجاتها بالطبع ، لكن السؤال هو هل يمنع هذا القيد البرمجي بطاقات Fermi من الحصول علي أداء أعلي في الألعاب الحالية؟ وهل من فرصة في رفع هذا القيد في المستقبل القريب ؟سوف يظل هذا السؤال معُلقا في سقف الحجرة الي جوار فرضية المعمارية المؤقتة والتي تتأرجح حاليا بين الخطا والصواب ، تري علي أي منهما سوف تستقر ؟
وحدات الاكساء Texture Units :
وحدات الاكساء هي المسئولة عن القيام بعمليّة تطبيق الاكساءات علي الأجسام ثلاثية الأبعاد ، بالاضافة الي عملية ترشيح الاكساءات اتت نواة GF104 بعدد 64 وحدة اكساء ، وهو نفس العدد في نواة GF100 ، ومع الأخذ في الحسبان كون GF104 نواة لبطاقة متوسطة ، فان هذا العدد يكون مناسبا للغاية ،وفي الواقع فان وحدات الاكساء في GF104 ليست وحدات عادية ، وإنما هي وحدات مُعدلة وأكثر سرعة من وحدات GF100 عند نفس التردد ،وبسبب سرعة هذه الوحدات وعددها الجيد ، فان المعالجة الاكسائية في GF104 أفضل حتي من نواة GF100 الكاملة ، الأمر الذي يجعل بطاقة GTX 470 في خطر داهم، ويقويّ من فرضية تعطيل المظللات في GTX 460 من أجل انقاذها ،أتت بطاقة GTX 460 بعشرة وحدات اكساء معطلة ، أي بعدد 56 وحدة من أصل 64 ،جبهة الاكساءات تُضعف من فرضية المعمارية المؤقتة والتي لا ينبغي أن تجصل علي مزايا اضافية .. فهل يأتي ما يقويها ؟
وحدات اخراج الألوان ROPS :
وحدات اخراج الألوان هي المسئولة عن اخراج دقّة العرض Resolution ، والقيام بعملية تنعيم الحواف Anti-Aliasing،جاءت أنوية GF104 بعدد 32 وحدة اخراج ، في مقابل 48 وحدة في GF100 ، و 32 وحدة في HD 5870 ،لكنها احتوت علي نفس العيب التصميمي الذي يقٌيد أنوية GF100 علي هذه الجبهة ، فناقل البيانات الذي يربط بين المظللات ووحدات الاخراج يأتي بعرض 512 بت فحسب ، وهو عرض يكفي 16 وحدة اخراج فقط ،ومعني ذلك أن البيانات في GF104 تصل الي 16 وحدة اخراج من أصل 32 ، ولا يمكن استغلال الـ16 وحدة الأخري في معالجة دقة العرض ،وعندما أتت بطاقة GTX 460 بمظللات مُعطلة ، فقدت 64 بت اضافية من عرض هذا الناقل ليصبح بعرض 448 بت ، وتنقطع صلة البطاقة بوحدتي اخراح اضافيتين ، لتتعامل مع 14 وحدة فقط من أصل 32 .
ونتيجة لهذا فان أداء أنوية GF104 علي دقات العرض العليا لا يرقي لمستوي أنوية GF100 ، والحل الوحيد لتفادي هذه المشكلة يكون برفع التردد مع استخدام النواة الكاملة ذات وحدات الاخراج الأكبر ،لا يحدث هذا في عملية تنعيم الحواف ، لأنها تتم يين وحدات الاخراج وبعضها البعض ، وهنا تستخدم أنوية GF104 كل وحدات الاخراج التي في حوزتها ،علي جبهة وحدات الاخراج أتت المعمارية الجديدة بنفس العيوب التصميمة للمعمارية السابقة ، هل يندرج هذا تحت بند المعمارية المؤقتة ، أم لا ؟
منظومة الذاكرة :
استخدمت أنوية GF104 ذواكر GDDR5 مثل أنوية GF100 ، واحتوت علي نفس العيب التصميمي والمتعلق بمتحكم الذاكرة ، والذي منع أنوية GF100 من الوصول الي ترددات أعلي من 3700MHz ،فبسبب قلة خبرة NVIDIA في تصميم ذواكر GDDR5 ، أخطأت الشركة في تقدير العدد المناسب من الدارات والأسنان الكهربية اللازمة للوصول لترددات مرتفعة للذواكر ،ونتيجة لهذا لم تستطع بطاقة GTX 460 أن تأتي بتردد أعلي من 3700MHz ، بينما استخدمت بطاقة GTS 450 تردد 3600MHz ،عرض ناقل الذاكرة في أنوية GF104 هو 256 بت ، وهو عرض كاف جدا ، وقابل للزيادة بتعديلات بسيطة .
ومثل GF100 ، احتوت أنوية GF104 علي نفس البنية التحتية المنيعة من الذاكرة المخبأة Cache ، والمترابطة منطقيا مع كل وحدات المعالجة ، الأمر الذي يمكنها من مشاركة النواة كلها بما فيها من بيانات (بدلا من أجزاء معينة فيها في السابق ) ، محققة بذلك تحسينات عديدة علي كلّ المستويات (اكساء ، تظليل ، حوسبة ) ، عن طريق تعزيز تدفق البيانات في كافة ارجاء النواة ،وليس هذا فحسب ، ولكن NVIDIA عملت علي تسريع هذه الذاكرة وتقليل بعض نقاط الاختناق فيها ، والمُحصلة أنها أسرع بنسبة ضئيلة من GF100 ،هل ما زلت تفكر في المعمارية المؤقتة ؟
جودة الصورة :
وعلي صعيد جودة الصورة جاءت بطاقات GF104 بنفس جودة صورة بطاقات GF100 واحتفظ الاثنين بدقة أعلي لترشيح الاكساءات Anisotropic Filtering من بطاقات AMD ، وكذلك لتنعيم الحواف الشفّاف Transparency Anti-Aliasing ، كما أًصبحت تدعم مستويات تنعيم الحواف الفائقة SuperSampling في تطبيقات DX9/DX10/DX10.1/DX11 ، بينما تدعم AMD ذلك في DX9 فقط ،مازالت بطاقات NVIDIA تدعم اضافة الظلال الدقيقة للأجسام التي بلا ظلال في عدد من الألعاب القديمة والجديدة تحت خاصية Ambient Occlusion من برنامج القيادة بالاضافة الي دعم مؤثّرات PhysX البصرية بالطبع .
الخاتمة:
إذا كان للمعمارية المؤقتة تعريفا محُددا ، فانه حتما لن يكون متُجسدا في أنوية GF104 ،فعلي العكس مما يبدو ظاهريا ، فان المعمارية الجديدة هي نفسها معمارية Fermi الأول ، لكن مع بعض التحسينات والاختصارات ،فعلي مستوي معظم وحدات البطاقة ، من اكساء و اخراج و رسم ، وعلي مستوي الذاكرتين العشوائية والمخبأة ، فاننا لم نشهد سوي بعض التحسينات الطفيفة هنا وهناك ، والباقي ظل كما هو ، حتي العيوب التصميمية ما زالت موجودة ،لكننا شهدنا أمرا جديدا ، أمرا لم يكن أي منّا يتوقعه ، أو يظن في قابلية وجوده من قبل ، وهو المرونة الشديدة التي أظهرتها معمارية Fermi .
وتجلتّ هذه المرونة كأوضح ما تكون في الاختصار من منظومة التوزيع ، وتعديل القلب بحيث يلائم هذا التغيير ببراعة وباقتدار ،وعلي العكس مما يظن البعض ، فان تحقيق أمرا مثل هذا ليس سهلا بأي مقياس تقني ، وتحديدا لما يحويه من قيود علي طريقة معالجة البيانات ، تصنعها المعماريات والتصميمات السابقة ، وتورثها للمعماريات الجديدة ، جاعلة من التغيير أمرا شاقا للغاية ، من كل النواحي ، البرمجية والعتادية ،لكن NVIDIA استطاعت فعل ذلك في زمن قياسي ، و صنعت أول تغيير جذري في ترتيب المظللات منذ أيام معمارية Tesla ، وربما منذ أول بداية للشركة ،ولقد مكّن هذا التغيير أنوية GF104 من أن تأتي بحجم أصغر ، واستهلاك أقل للطاقة ، ثمّ لم تكتفي بذلك فحسب ، بل إنها -مع التردد المناسب- أصبحت تنافس بعضا من أنوية GF100 كذلك (مثل GTX 470 ) .
والأجمل من كل هذا أن المعمارية الجديدة فعلت ذلك بمظللات معٌطلة ، مما يعني أن الأداء الكامل لها لم يسُتخرج بعد ، وأن الاصدار القادم منها سيكون شيقا و مثيرا للاهتمام بالفعل ،وإن دل كل ذلك علي شئ ، فانما يدل علي أن NVIDIA أحسنت حقّا التخطيط لمعمارية Fermi الأصلية ، وأحسنت تصميمها وتطويعها بحيث تصبح بهذه الدرجة الفائقة من الليونة والقابلية للتغيير ، وهذا انجاز تقني بكل المقاييس ،ومن الصعب أن يمر انجاز مثل هذا دون التقدير المناسب ، فمعمارية Fermi الجديدة هي أفضل معمارية رسومية في عام 2010 ، وهذا أقل تقدير تستحقه ،وإن كنت قد سئمت من التطلع لكل ما هو تقليدي ومكرر في عالم التقنيات العتادية ، فليس أجمل من أن تمُتّع عقلك بتحفة تقنية جديدة ، انها تحفة Fermi التقنية ، والتي أثبتت مرونتها وليونتها في اصدراها الجديد ، الاصدار الذي لم ولن يكون مجٌرّد معمارية مؤقتة ، بل شيئا أفضل وأعمق بمراحل عدّة.