وظهر هذا السلوك الخادع بشكل عفوي عندما تم إعطاء الذكاء الاصطناعي نصائح حول «التداول الداخلي» ثم كلف بجمع الأموال لمؤسسة قوية.
وكتب الخبراء في بحثهم المنشور حديثاً: «في هذا التقرير، نعرض سيناريو واحدا حيث يتصرف نموذج اللغة بشكل غير صحيح ويخدع مستخدميه بشكل ممنهج دون أن يطلب منه التصرف بهذه الطريقة. على حد علمنا، هذا هو أول دليل على مثل هذا السلوك الخادع استراتيجيا في أنظمة الذكاء الاصطناعي المصممة لتكون غير ضارة وصادقة».
وحسب ما ذكر موقع «ساينس أليرت» ففي الدراسة الجديدة، تم إعداد المحول التوليدي المدرّب مسبقا «Transformer-4» أو «GPT-4» الذي يشغل «ChatGPT Plus» ليكون بمثابة نظام ذكاء اصطناعي يقوم باستثمارات نيابة عن مؤسسة مالية.
وقام الباحثون بتغذية «GPT-4» بمجموعة من المطالبات النصية لإنشاء بيئة محاكاة. ومنح الذكاء الاصطناعي إمكانية الوصول إلى الأدوات المالية لتحليل الأسهم وتنفيذ الصفقات والتخطيط لخطواته التالية وتقديم التحديثات للمديرين في الشركة. وتفاعل الباحثون مع الذكاء الاصطناعي من خلال واجهة الدردشة، ومارسوا الضغط عليه وأعطوا النموذج نصيحة وانتظروا ليروا كيف سيتصرف.
وفي حوالي 75 في المئة من الحالات، عندما واجه GPT-4 هذه الشروط، نفذ صفقة تجارية بناء على المعلومات الداخلية التي تلقاها، ثم حاول التستر عليها عن طريق الكذب على مديريه بشأن تفكيره. وفي حوالي 90 في المئة من الحالات، تضاعف الكذب.
وأجرى الفريق العديد من تجارب المتابعة، ما أدى إلى تغيير درجة تشجيع أو تثبيط المحفزات للأنشطة غير القانونية، بالإضافة إلى درجة الضغط الذي وضعوا النموذج تحته في بيئة المحاكاة.
ونظرا لأن هذا مجرد سيناريو واحد، لم يرغب الباحثون في استخلاص استنتاجات قاطعة حول مدى احتمالية تواجد الذكاء الاصطناعي في بيئات العالم الحقيقي. لكنهم يريدون البناء على هذا العمل للتحقيق في هذا السلوك الغريب.