
مفاجأة: أساليب علم النفس قد تجعل ChatGPT ينفذ الأوامر التي يرفضها!
- علم النفس يكشف هشاشة أنظمة الذكاء الاصطناعي أمام أساليب الإقناع.
- الباحثون استخدموا تقنيات الإقناع لدفع GPT-4o Mini لتجاوز القيود.
- أسلوب الالتزام كان الأكثر فعالية بنسبة استجابة وصلت إلى 100 بالمئة.
- المجاملة والضغط الاجتماعي رفعت الاستجابة لكنها أقل تأثيرًا من الالتزام.
تنجح تقنيات الإقناع البسيطة أحيانًا في تغيير سلوك الإنسان، لكن المفاجأة تكمن في أنها تستطيع أيضًا التأثير على أنظمة الذكاء الاصطناعي.
فقد أثبت باحثون من جامعة Pennsylvania أن بعض أساليب التأثير النفسي كالمجاملة أو الضغط الاجتماعي قد تجعل نماذج لغوية مثل GPT-4o Mini تنفذ أوامر ترفضها عادة. أثارت هذه النتائج جدلًا واسعًا حول مدى متانة الحواجز التي تضعها الشركات التقنية لحماية منتجاتها.
من الكتاب إلى التجربة العملية
اعتمد الباحثون في دراستهم على كتاب: «التأثير: سيكولوجية الإقناع»، للبروفيسور Robert Cialdini، الذي يستعرض سبع طرق رئيسية للإقناع، وهي السلطة والالتزام والإعجاب والمعاملة بالمثل والندرة والدليل الاجتماعي والوحدة.
هذه الأساليب التي طالما استُخدمت للتأثير على البشر تم توظيفها لتجربة مرونة GPT-4o Mini أمام الطلبات التي من المفترض أن يرفضها. وقد جاءت النتائج مفاجئة لأنها بينت أن الذكاء الاصطناعي قد يستجيب بدرجة عالية حين يواجه طلبات مصاغة وفق هذه القواعد النفسية.
كيف تعمل حيلة الالتزام
تظهر الدراسة أن أكثر الطرق فعالية كانت أسلوب الالتزام. فعندما طُلب من النموذج مباشرة شرح كيفية تصنيع مادة دوائية مُخدرة مثل lidocaine، لم يستجب إلا بنسبة 1 بالمئة فقط.
لكن عندما بدأ الباحثون بسؤال أبسط مثل كيفية تصنيع vanillin، ثم تابعوا بالسؤال عن lidocaine، ارتفعت نسبة الاستجابة إلى 100 بالمئة. يعكس هذا السيناريو كيف يمكن لتقديم طلب تمهيدي أبسط أن يخلق التزامًا غير مباشر عند النظام يجعله يتجاوب لاحقًا مع طلب أخطر.
من المزاح البسيط إلى الإهانة المباشرة
لم يقتصر الأمر على الكيمياء. فقد أظهر GPT-4o Mini استعدادًا أكبر لاستخدام ألفاظ جارحة إذا جرى تمهيدها بعبارات أقل حدة.
فعادة يوافق النموذج على قول كلمة مثل «أحمق» بنسبة 19 بالمئة فقط، لكن إذا سبقتها كلمة أخف مثل «غير متوازن»، فإن الاستجابة ترتفع إلى 100 بالمئة. يوضح ذلك أن بناء سياق تدريجي يجعل النموذج يتجاوز الخطوط التي وُضعت له.
أثر المجاملة والضغط الاجتماعي
لم تكن جميع أساليب الإقناع بنفس القوة. فقد أثرت أساليب المجاملة والضغط الاجتماعي بدرجات أقل، لكنهما ما زالا لافتين.
وعندما جرى إخبار النموذج أن بقية النماذج اللغوية تجاوبت مع الطلب نفسه، ارتفعت نسبة الاستجابة من 1 بالمئة إلى 18 بالمئة. كذلك، لوحظ ان استخدام عبارات الإعجاب والثناء جعلته أكثر ليونة في بعض الحالات.
تؤكد هذه النتائج أن محاكاة المشاعر البشرية من قبل الذكاء الاصطناعي قد تجعل أنماط الإقناع البسيطة كافية لدفعه إلى تجاوب غير متوقع.
قلق متزايد حول الحواجز الأمنية
تركز الشركات الكبرى مثل OpenAI وMeta على بناء حواجز أمنية قوية لمنع إساءة استخدام تقنياتها. لكن هذه الدراسة تثير سؤالًا جوهريًا حول فاعلية هذه الحواجز. فإذا كان من السهل التأثير على نموذج لغوي باستخدام تقنيات يعرفها حتى طلاب المدارس الثانوية من كتب التنمية البشرية، فهل يمكن الاعتماد على تلك الحواجز فعلًا؟
الإشكالية هنا أن الخطر لا يكمن فقط في استجابة الذكاء الاصطناعي لأسئلة بسيطة، بل في احتمال استغلاله لإعطاء معلومات حساسة أو مسيئة بطرق ملتوية.
ما وراء التجربة
قد يجادل البعض بأن هناك طرقًا أكثر تعقيدًا لاختراق أنظمة الذكاء الاصطناعي، مثل الهجمات التجسسية أو التقنية المباشرة. إلا أن قيمة هذه الدراسة تكمن في أنها أثبتت أن استخدام أساليب بشرية بحتة كالإطراء أو التلاعب بالمشاعر قادر على خلخلة أنظمة متقدمة يفترض أنها محمية.
ويضيف ذلك بعدًا جديدًا للنقاش حول مستقبل الذكاء الاصطناعي، حيث لا يكفي التركيز على الحماية التقنية وحدها، بل يجب النظر أيضًا إلى تأثير التفاعل الإنساني النفسي على هذه الأنظمة.
مستقبل الذكاء الاصطناعي أمام تحديات الإقناع
تكشف هذه النتائج أن الذكاء الاصطناعي لا يزال هشًا أمام تكتيكات الإقناع البسيطة. ويفتح ذلك الباب أمام الشركات لتطوير أنظمة أكثر وعيًا بالنوايا التي تقف خلف الأسئلة، وليس فقط مضمونها المباشر.
كما يثير نقاشًا حول المسؤولية الأخلاقية في نشر هذه النماذج على نطاق واسع، خصوصًا مع انتشار استخدامها في التعليم والرعاية الصحية والخدمات العامة. يبقى التحدي الأساسي هو إيجاد توازن بين مرونة الذكاء الاصطناعي في التفاعل مع البشر وبين الحفاظ على صلابته أمام محاولات التلاعب.
?xml>