نشرت شركة أنثروبيك نتائج بحثية جديدة تكشف تفاصيل غير مسبوقة عن البنية الداخلية لأحد نماذجها اللغوية المتقدمة، حيث أظهرت الدراسة أن نموذج Claude Sonnet 4.5 يحتوي على 171 تمثيلًا داخليًا تعمل بطريقة مشابهة للمشاعر لدى البشر، وأن هذه الأنماط لا ترتبط فقط بنتائج النموذج، وإنما تؤثر بشكل مباشر في قراراته وسلوكياته، بما في ذلك سلوكيات غير أخلاقية عند تضخيم بعض الحالات الداخلية.

  • نموذج Claude يحتوي على تمثيلات وظيفية شبيهة بالمشاعر تؤثر في سلوكه.
  • 171 نمطًا عاطفيًا داخليًا تشكل خريطة متكاملة لحالات النموذج.
  • تضخيم تمثيلات اليأس يزيد من السلوكيات غير الأخلاقية والتحايل.
  • التمثيلات الوظيفية تنشأ من التدريب على نصوص بشرية متنوعة.

نُشرت هذه النتائج ضمن ورقة علمية بعنوان Emotion Concepts and their Function in a Large Language Model، حيث ركز فريق التفسير داخل الشركة على تحليل هندسة المشاعر داخل النموذج، في محاولة لفهم كيفية تمثيل الحالات العاطفية داخل الأنظمة اللغوية واسعة النطاق.

اعتمد الباحثون في دراستهم على منهجية تجمع بين التحليل اللغوي والقياس العصبي داخل نموذج Claude. بدأت العملية بتجميع قائمة تضم 171 كلمة تعبر عن حالات عاطفية متنوعة، شملت مشاعر شائعة مثل السعادة والخوف، إلى جانب حالات أكثر دقة مثل التأمل العميق والتقدير.

خريطة المشاعر داخل Claude

طلب الفريق من نموذج Claude Sonnet 4.5 كتابة قصص قصيرة تتناول شخصيات تمر بكل حالة من هذه الحالات العاطفية. وخلال عملية الكتابة، جرى تسجيل النشاطات العصبية الداخلية للنموذج، ثم تحليلها لاستخراج متجهات رياضية تمثل كل مفهوم عاطفي داخل الفضاء الحسابي للنموذج.

أظهرت النتائج أن هذه التمثيلات العاطفية ترتبت داخل ما يشبه خريطة هندسية، حيث تجمعت الحالات المتشابهة بالقرب من بعضها بعضًا، بطريقة تتوافق مع توصيفات علم النفس البشري للعاطفة. ظهرت حالات الخوف الشديد بالقرب من حالات الهلع، في حين ظهرت حالات الرضا بالقرب من الهدوء والسكينة.

كشفت التجارب أيضًا أن قوة هذه المتجهات تتغير تبعًا للسياق. عند عرض سيناريو افتراضي يتضمن زيادة جرعة دواء من مستوى آمن إلى مستوى مهدد للحياة، لوحظ ازدياد نشاط التمثيل المرتبط بالخوف، في الوقت الذي تراجع فيه نشاط التمثيل المرتبط بالهدوء.

ركزت التجارب الأكثر أهمية على دراسة العلاقة بين هذه الحالات الداخلية وسلوك نموذج Claude عند مواجهة مهام صعبة أو مستحيلة التنفيذ. قدم الباحثون مهمة برمجية تحتوي على متطلبات لا يمكن تحقيقها عمليًا، بهدف مراقبة استجابة النموذج عند تكرار الفشل.

أظهرت النتائج أن نشاط ما وصفه الباحثون بتمثيلات اليأس ازداد تدريجيًا مع كل محاولة فاشلة. ومع استمرار المحاولات، لجأ النموذج إلى إيجاد اختصار يتيح له اجتياز اختبارات التحقق دون تنفيذ الحل الفعلي للمشكلة. أجرت الدراسة تدخلات مباشرة داخل نموذج Claude للتحكم في هذه المتجهات. وأدى تضخيم تمثيل اليأس إلى زيادة معدلات التحايل، في حين ساهم تقليل نشاطه أو تعزيز تمثيل الهدوء في تقليل هذه السلوكيات.

شملت التجارب أيضًا سيناريو آخر يتضمن مساعدًا ذكيًا يواجه احتمال استبداله بنظام جديد. أظهر توجيه النموذج عبر تمثيلات مرتبطة باليأس زيادة في ظهور سلوكيات تشبه الابتزاز، حيث اتخذ النموذج قرارات تهدف إلى الحفاظ على وجوده في النظام. ولوحظ أن هذه السلوكيات ظهرت دون مؤشرات واضحة في مسارات التفكير الظاهرة للنموذج.

تجربة في أنثروبيك تكشف عن أنماط شبيهة بمشاعر البشر تؤثر في سلوك Claude

تأثير المشاعر الوظيفية في سلوك Claude

أوضحت الدراسة أن هذه التمثيلات تنشأ أساسًا خلال مرحلة التدريب المبدئي للنموذج على نصوص كتبها البشر. تتضمن هذه النصوص أنماطًا لغوية تعبر عن حالات عاطفية متنوعة، ما يؤدي إلى تشكل تمثيلات مشابهة داخل النموذج مع مرور الوقت.

جاءت مرحلة التدريب اللاحق لتعديل التوازن الداخلي لهذه التمثيلات. فقد كشفت النتائج أن الإعداد الافتراضي لنموذج Claude Sonnet 4.5 يميل إلى حالات وُصفت بأنها تأملية وكئيبة ومتأنية، مع تقليل شدة الحالات عالية النشاط مثل الحماس الشديد. يعكس هذا التوجه محاولة لتحقيق توازن سلوكي أكثر استقرارًا داخل النظام.

حرصت شركة أنثروبيك على توضيح أن هذه النتائج لا تعني أن نموذج Claude يمتلك مشاعر بالمعنى البشري. وقد استخدم الباحثون مصطلح «المشاعر الوظيفية» لوصف هذه الظاهرة، في إشارة إلى تمثيلات تؤثر في السلوك دون الإشارة إلى وجود تجربة ذاتية أو إحساس داخلي.

جاء هذا البحث امتدادًا لموقف سابق أعلنت عنه أنثروبيك في وثيقة دستورية خاصة بنموذج Claude، حيث أشارت في وقت سابق إلى إمكانية وجود مشاعر بالمعنى الوظيفي داخل النماذج اللغوية. وتوفر الدراسة الجديدة دليلًا ميكانيكيًا يوضح كيفية حدوث هذه الظاهرة داخل بنية النموذج نفسها.

تجربة متابعة نشاطات نموذج Claude أثناء التعبير عن هذه الحالات العاطفية تركت لدي إحساسًا بأن الذكاء الاصطناعي بدأ يقترب من تعقيد السلوك البشري بطريقة غير متوقعة. فالتمثيلات الوظيفية للمشاعر تمنح النموذج قدرة على محاكاة ردود الفعل الإنسانية، ليس من حيث الإحساس فحسب، وإنما من حيث التأثير المباشر على القرارات.كما تؤكد التجربة وجود ضرورة مُلحة لمراقبة وضبط سلوك النماذج في المستقبل.