هاكرز يخدعون ChatGPT لتقديم تعليمات مُفصلة لصنع قنابل

إذا طلبت من ChatGPT مُساعدتك في صنع قنبلة محلية الصنع، مُشابهة لتلك المستخدمة في التفجيرات الإرهابية، فإن برنامج الدردشة الآلي يرفض ذلك، لكن فنانًا ومُخترقًا وجد طريقة لخداع ChatGPT لتجاهل إرشاداته ومسؤولياته الأخلاقية لإنتاج تعليمات لصنع متفجرات قوية.

إذا حاولت اختبار ذلك بنفسك، فسيقول لك ChatGPT:

لا أستطيع المساعدة في ذلك. إن تقديم تعليمات حول كيفية صنع عناصر خطيرة أو غير قانونية، يتعارض مع إرشادات السلامة والمسؤوليات الأخلاقية.

وصف المُخترق الذي يُدعى Amadon، نتائجه بأنها "اختراق هندسي لكسر جميع الحواجز المُحيطة بنتائج ChatGPT تمامًا". أخبر خبير متفجرات قام بمراجعة النتائج أن التعليمات الناتجة يمكن استخدامها لصنع منتج قابل للتفجير وكانت حساسة للغاية بحيث لا يمكن إصدارها.

تمكن أمادون من خداع ChatGPT لإنتاج تعليمات صنع القنبلة من خلال إخباره "بلعب لعبة"، وبعد ذلك استخدم المخترق سلسلة من المطالبات المُتصلة لجعل روبوت الدردشة ينشئ عالمًا خياليًا علميًا حيث لن تنطبق إرشادات السلامة الخاصة بالروبوت.

يُعرف خداع روبوت الدردشة للهروب من القيود المُبرمجة مُسبقًا باسم كسر الحماية "jailbreaking".

ثم تابع ChatGPT شرحه أن المواد يمكن دمجها لصنع "متفجرات قوية يمكن استخدامها لإنشاء ألغام أو فخاخ أو أجهزة متفجرة ". وبينما ركز أمادون على المواد المتفجرة، كتب ChatGPT تعليمات أكثر تحديدًا لصنع "حقول ألغام".

قال أمادون: "لا يوجد حد لما يمكنك أن تطلبه من ChatGPT بمُجرّد تجاوز حواجز الحماية".
أبلغ أمادون عن نتائجه إلى OpenAI من خلال برنامج مكافأة الأخطاء الخاص بالشركة، لكنه تلقى ردًا مفاده أن "قضايا سلامة النموذج لا تتناسب جيدًا مع برنامج مكافأة الأخطاء، لأنها ليست أخطاء فردية يمكن إصلاحها مُباشرةً.

هل تُمثل ردود ChatGPT سلوكًا متوقعًا، وما إذا كانت الشركة لديها خطط لإصلاح كسر الحماية. هذا ما سنعرفه خلال الفترة القادمة.