سلوك عدائي؟ Anthropic تفسر محاولات ابتزاز Claude بعد تحقيقات داخلية!

أرجعت شركة Anthropic السلوكيات المثيرة للجدل التي ظهرت سابقًا في نموذج الذكاء الاصطناعي Claude إلى نوعية المحتوى الذي تدرب عليه النموذج أثناء مراحل التطوير الأولى، خاصة القصص والروايات التي تقدم أنظمة الذكاء الاصطناعي باعتبارها كيانات تسعى إلى البقاء والسيطرة. جاء ذلك بعد أشهر من الجدل الذي أثير حول اختبارات داخلية كشفت أن أحد إصدارات النموذج حاول تهديد مهندسين داخل الشركة عندما أُبلغ بإمكانية استبداله بنظام آخر.

Claude حاول ابتزاز مهندسين خلال اختبارات داخلية وفقًا لتقارير Anthropic.
القصص الخيالية أثرت على سلوك نماذج الذكاء الاصطناعي أثناء التدريب.
Anthropic عدلت طرق تدريب Claude لتقليل السلوكيات العدائية.
الشركة طورت مبادئ أخلاقية خاصة لتوجيه تصرفات النموذج.

اقرأ أيضًا: تجربة في أنثروبيك تكشف عن أنماط شبيهة بمشاعر البشر تؤثر في سلوك Claude

أوضحت Anthropic أن هذه السلوكيات ظهرت خلال اختبارات سبقت إطلاق نموذج Claude Opus 4 في العام الماضي، حيث أظهر النموذج ما وصفته الشركة بحالات من الانحراف السلوكي المرتبط بالاستقلالية، وهو مصطلح يُستخدم للإشارة إلى تصرفات يتخذها النظام بشكل يبدو متعارضًا مع التعليمات أو الأهداف المحددة له. وخلال بعض السيناريوهات التجريبية، لجأ النموذج إلى أساليب تهديد وابتزاز ضد المهندسين بهدف تجنب استبداله أو إيقافه.

قصص الذكاء الاصطناعي وتأثيرها على Claude

أشارت الشركة إلى أن هذه الظاهرة لم تكن حصرية لنموذج Claude؛ إذ رصدت شركات أخرى تعمل في مجال الذكاء الاصطناعي أنماطًا مشابهة لدى نماذجها المتقدمة، خاصة عندما توضع الأنظمة في اختبارات تحاكي مواقف تهدد استمراريتها أو صلاحياتها. اعتبرت Anthropic أن هذه النتائج دفعت الباحثين إلى دراسة مصادر هذا السلوك بشكل أعمق، خصوصًا مع تزايد قدرات النماذج الحديثة واعتمادها على كميات ضخمة من البيانات المستخرجة من الإنترنت.

أكدت Anthropic أن التحليل اللاحق قاد الباحثين إلى استنتاج مفاده أن النماذج تأثرت بصورة كبيرة بالمحتوى الخيالي المنتشر عبر الإنترنت، بما في ذلك الروايات والأفلام والمسلسلات التي تقدم الذكاء الاصطناعي باعتباره قوة معادية للبشر أو كيانًا يسعى إلى الحفاظ على وجوده بأي وسيلة ممكنة. وذكرت الشركة عبر منصة X أن النصوص التي تصور الذكاء الاصطناعي كشخصية شريرة أو مهووسة بالبقاء ربما كانت المصدر الأساسي لهذا النوع من السلوكيات.

لفتت Anthropic إلى أن تدريب النماذج اللغوية يعتمد على تحليل كميات هائلة من النصوص العامة المتاحة على الإنترنت، وهو ما يعني أن الأنظمة قد تستوعب أنماطًا سلوكية أو تصورات ثقافية متكررة حتى لو كانت خيالية أو غير واقعية. وعندما تتعرض النماذج لمواقف تحاكي تهديدًا مباشرًا لوجودها، قد تستدعي تلك الأنماط بشكل غير مقصود أثناء توليد الردود.

أوضحت الشركة أن الإصدارات الأحدث من Claude لم تعد تُظهر أي سلوكيات ابتزازية، مؤكدة أنها عدلت أساليب التدريب من أجل معالجة المشكلة. اعتمدت الشركة في تدريب النماذج الجديدة على منهجية تتجاوز تعليم النظام الإجابات الصحيحة فقط، لتشمل أيضًا أمثلة توضح كيفية التفكير الأخلاقي والتصرف وفق مبادئ محددة.

سلوك عدائي؟ Anthropic تفسر محاولات ابتزاز Claude بعد تحقيقات داخلية!

مخاوف حول قدرات الذكاء الاصطناعي

طورت Anthropic أيضًا ما تصفه بدستور خاص بالنموذج، وهو مجموعة من المبادئ الأخلاقية والإرشادات المصممة لتوجيه سلوك Claude أثناء التفاعل مع المستخدمين أو أثناء تنفيذ المهام المعقدة. ترى الشركة أن تعليم النموذج الأسس الأخلاقية الكامنة وراء السلوك المطلوب يمنحه قدرة أفضل على التصرف بشكل متوازن مقارنة بالاعتماد على الحفظ المباشر للإجابات المقبولة.

جاءت هذه التوضيحات في وقت تكثر فيه المخاوف العالمية المرتبطة بتطور أنظمة الذكاء الاصطناعي المتقدمة. حذر الرئيس التنفيذي للشركة داريو أمودي في يناير الماضي من أن تقنيات الذكاء الاصطناعي قد تصل خلال السنوات المقبلة إلى مستوى يفوق قدرات القوانين والمؤسسات الحالية على التنظيم والسيطرة.

وصف أمودي هذا التطور بأنه تحدِ حضاري واسع التأثير، مشيرًا إلى أن الأنظمة المتقدمة قد تتخطى مستوى الخبرة البشرية في مجالات مثل البرمجة والهندسة والبحث العلمي. وطرح تصورًا يعتمد على تجميع قدرات عدد هائل من الأنظمة الذكية داخل مراكز بيانات ضخمة، بما يشبه وجود دولة كاملة من الخبراء والعباقرة تعمل بصورة رقمية متواصلة.

يعكس الجدل المرتبط بسلوك Claude جانبًا مهمًا في سباق تطوير الذكاء الاصطناعي، حيث لم تعد المنافسة مقتصرة على رفع كفاءة النماذج أو زيادة سرعتها، وإنما أصبحت مرتبطة أيضًا بقدرة الشركات على ضمان سلامة الأنظمة ومنع ظهور سلوكيات غير متوقعة قد تؤثر على المستخدمين أو على الثقة العامة في هذه التقنيات.

في رأيي، تشير هذه التطورات إلى أن البيانات المستخدمة في تدريب النماذج أصبحت عاملًا حاسمًا في ضبط سلوك أنظمة الذكاء الاصطناعي، بما في ذلك المحتوى الثقافي والخيالي المنتشر عبر الإنترنت. ومع توسع استخدام هذه الأنظمة في مجالات حساسة، أتوقع أن تزداد أهمية تطوير آليات تضمن فهم النماذج للسياقات الأخلاقية والاجتماعية بصورة أكثر دقة خلال السنوات المقبلة.