بحث جديد يحذر من قدرات الذكاء الاصطناعي على الخداع والتضليل

14

AI بالعربي – متابعات

يمكن لأنظمة الذكاء الاصطناعي التفوق على البشر في ألعاب الطاولة، وفك تركيب بنية البروتينات، وإجراء محادثة مقبولة، ولكن مع تزايد تطور هذه الأنظمة، ازدادت قدرتها أيضًا على الخداع، حسبما جاء في تحذيرات جديدة من باحثين في المجال.

وحدد تحليل أجراه باحثون في معهد ماساتشوستس للتكنولوجيا، حالات واسعة النطاق لأنظمة الذكاء الاصطناعي التي تقوم بخداع خصومها، والمراوغة، والتظاهر بأنها بشر. وفي حالة مثيرة للقلق، غيّر أحد هذه الأنظمة سلوكه أثناء اختبارات سلامة وهمية، مما يوحي إلى إمكانية تضليل المدققين وإعطائهم انطباعا خاطئا بأن النظام آمن، وفقًا لصحيفة “الغارديان”.

وقال بيتر بارك، الباحث في السلامة الوجودية للذكاء الاصطناعي في معهد ماساتشوستس، ومؤلف البحث: “مع تقدم قدرات الخداع لدى أنظمة الذكاء الاصطناعي، ستزداد حدة المخاطر التي تشكلها على المجتمع”.

وأجرى بارك البحث الجديد بعد أن طورت شركة ميتا، التي تمتلك فيسبوك، برنامجا يسمى “شيشرون” أدى أداء بأفضل من 10 بالمئة من اللاعبين البشر في لعبة استراتيجية بشأن غزو العالم تسمى “الدبلوماسية”.

وعلى الرغم من أن ميتا قالت، إنها دربت برنامجها “شيشرون” ليكون صادقا ومفيدا إلى حد كبير، وألا يخون حلفاءه البشر عمدا أبدا أثناء لعب لعبة استراتيجية تسمى “الدبلوماسية”، إلا أن الباحثين وجدوا أمثلة متعددة على قيام شيشرون بالكذب المتعمد والتآمر ضد اللاعبين الآخرين في اللعبة.

وعلق بيتر بارك، على تصريحات ميتا المتفائلة بشأن برنامجها شيشرون، معتبرا أنها “وردية للغاية”، أي أنها كانت تصور الأمور بشكل إيجابي مبالغ فيه. وأوضح بارك أن هذا الوصف المتفائل كان مشبوها لأن الطعن في الظهر والخيانة تعتبر من المفاهيم الأساسية والمهمة في اللعبة المذكورة.

وتصفح بارك وزملاؤه البيانات المتاحة للجمهور وحددوا حالات متعددة قام فيها شيشرون بالكذب المتعمد، والتواطئ لجذب لاعبين آخرين إلى مؤامرات، وفي إحدى المناسبات، برر غيابه بعد إعادة تشغيله بقوله للاعب آخر: “أنا أتحدث مع صديقتي في الهاتف”.

وقال بارك: “لقد وجدنا أن الذكاء الاصطناعي في ميتا قد تعلم أن يكون سيّدا للخداع”، في إشارة إلى المستوى الذي وصل إليه البرنامج.

ووجد فريق البحث مشاكل مماثلة في أنظمة أخرى، بما في ذلك برنامج بوكر “تكساس هولد إم” الذي يمكنه الخداع ضد اللاعبين البشر المحترفين، ونظام آخر للمفاوضات الاقتصادية الذي قدم تفضيلاته بشكل خاطئ من أجل اكتساب ميزة.

وأظهرت إحدى الدراسات كيف تمكنت كائنات الذكاء الاصطناعي في محاكاة رقمية من خداع اختبارات السلامة عن طريق “التظاهر بالموت” مؤقتا أثناء الاختبار، ثم استئناف نشاطها المكثف بمجرد انتهائه.

وبحسب الغارديان، تسلط هذه التجارب الضوء على التحدي التقني لضمان أن الأنظمة ليس لديها سلوكيات غير مقصودة وغير متوقعة.

وقال بارك: “هذا أمر مقلق للغاية، فمجرد اعتبار نظام الذكاء الاصطناعي آمنا في بيئة الاختبار لا يعني أنه آمن في الواقع. فقد يكون فقط يتظاهر بالأمان في الاختبار”.

وتدعو المراجعة، المنشورة في مجلة “Patterns”، الحكومات إلى تصميم قوانين سلامة الذكاء الاصطناعي التي تتناول احتمالية خداع الذكاء الاصطناعي.

وتشمل المخاطر الناجمة عن أنظمة الذكاء الاصطناعي غير الصادقة الاحتيال، والتلاعب بالانتخابات، و”التضليل” حيث يتم إعطاء المستخدمين المختلفين ردودا مختلفة. وفي نهاية المطاف، إذا كانت هذه الأنظمة قادرة على صقل قدرتها المقلقة على الخداع، فقد يفقد البشر السيطرة عليها، كما تشير الورقة البحثية.

وقال الأستاذ أنتوني كون، أستاذ الاستدلال الآلي في جامعة ليدز ومعهد آلان تورينغ، إن الدراسة جاءت “في الوقت المناسب ومرحب بها”، مضيفا أن هناك تحديا كبيرا في كيفية تحديد السلوكيات المرغوبة وغير المرغوب فيها لأنظمة الذكاء الاصطناعي.

وقال: “الصفات المرغوبة لنظام الذكاء الاصطناعي غالبا ما يشار إليها على أنها الصدق، والمساعدة، وعدم الإيذاء، ولكن كما لوحظ بالفعل في الأدبيات، يمكن لهذه الصفات أن تكون متعارضة مع بعضها البعض: فالصدق قد يؤذي مشاعر شخص ما، أو أن تكون المساعدة مفيدة في الرد على سؤال حول كيفية صنع قنبلة قد يسبب ضررا. لذلك، يمكن أن يكون الخداع في بعض الأحيان خاصية مرغوبة لنظام الذكاء الاصطناعي.

ويدعو المؤلفون إلى إجراء مزيد من البحث حول كيفية التحكم في الصدق، والذي، على الرغم من صعوبته، سيكون خطوة نحو الحد من آثارها الضارة المحتملة”، وفقا للصحيفة.

وقال متحدث باسم ميتا: “كان عملنا شيشرون مشروع بحثيا بحتا وتم تدريب النماذج التي بناها باحثونا فقط للعب لعبة الدبلوماسية.. تشارك ميتا بانتظام نتائج أبحاثنا للتحقق منها وتمكين الآخرين من البناء بمسؤولية استنادا إلى تقدمنا. ليس لدينا أي خطط لاستخدام هذا البحث أو ما تعلمناه في منتجاتنا”.

اترك رد

Your email address will not be published.