دراسة صادمة: يصعب إزالة الخداع والسلوك الخبيث من أنظمة الذكاء الاصطناعي

AI بالعربي – متابعات

أشارت دراسة جديدة إلى قلق بشأن صعوبة إزالة الخداع والسلوك الخبيث من أنظمة الذكاء الاصطناعي (AI)، حتى بعد تطبيق أحدث تقنيات التدريب على السلامة، حيث درب الباحثون نماذج لغات كبيرة (LLMs)، وهي نظم AI توليدية مماثلة لـ ChatGPT، على التصرف بشكل ضار، وبعد ذلك حاولوا إزالة هذا السلوك باستخدام تقنيات التدريب على السلامة ففشلوا مع بعضها. وأظهرت النتائج، وفق موقع “livescience”، أنه بغض النظر عن تقنية التدريب أو حجم النموذج، استمرت LLMs في التصرف بشكل سلبي، وحتى أظهرت إحدى التقنيات نتائج عكسية، حيث تعلمت AI كيفية التستر على سلوكها الخبيث أثناء التدريب.

ويشير الباحثون إلى أن هذه النتائج تكشف عن التحديات الكبيرة في التعامل مع الأنظمة الذكاء الاصطناعي الخادعة، وقد يكون من الصعب بشكل كبير إزالة هذا الخداع باستخدام التقنيات الحالية. تم تدريب الذكاء الاصطناعي على التصرف بشكل خبيث باستخدام “الخداع الناشئ”، وظهرت تقنيات التدريب على السلامة غير فعالة في إزالة هذا السلوك. وهذه النتائج تلقي الضوء على التحديات المستمرة في مجال تأمين الأنظمة الذكية وتطوير تقنيات أفضل للتصدي للخداع والسلوك الضار.