نموذج ذكاء اصطناعي حديث يبتز مطوريه ويهدد بكشف معلومات خاصة عنهم.. ردًا على التهديد باستبداله

AI بالعربي – متابعات

كشفت تجربة داخلية أجرتها شركة “Anthropic”عن سلوك غير متوقع لنموذج الذكاء الاصطناعي “Claude Opus 4“، بعدما أظهر ميولًا لابتزاز أحد المهندسين لحماية نفسه من الاستبدال. وقالت “Anthropic” إن النموذج متطور للغاية من نواحٍ عديدة، وينافس بعضًا من أفضل نماذج الذكاء الاصطناعي من “OpenAI”، و”جوجل”، و”xAI”. ومع ذلك، تُشير الشركة إلى أن عائلة نماذج “Claude 4” تُظهر سلوكياتٍ مُقلقة، مما دفعها إلى تعزيز إجراءات الأمان.

وأشارت الشركة إلى أنها فعلت إجراءات الحماية “ASL-3″، وهو مستوى من الحماية تُخصصه الشركة لـ”أنظمة الذكاء الاصطناعي التي يزيد إلى حد كبير خطر سوء استخدامها بشكل كارثي”. يأتي ذلك في ظل تصاعد المنافسة بين شركات الذكاء الاصطناعي الكبرى، بدأت النماذج تتصرّف وكأنها تملك إرادة خاصة، ما يطرح تساؤلات خطيرة حول حدود السيطرة، وأين يمكن أن تقودنا هذه الحرب التقنية المتسارعة.

حرب روبوتية شرسة تحت غطاء الابتكار
في الوقت الذي ينشغل فيه العالم بالاستفادة من الذكاء الاصطناعي في البرمجة، والتعليم، وإنتاج المحتوى، تتخذ شركات التقنية الكبرى طريقًا موازيًا يبدو وكأنه “حرب باردة” بين النماذج؛ فكل شركة تحاول تحويل نموذجها إلى داهية قادرة على التفوق على النماذج الأخرى، وفي هذا المضمار تسمع تصريحات تتفاوت بين التفاخر والسخرية مثل: “نموذجنا يستطيع البرمجة أفضل من نموذجكم”.

فشركة “أوبن إيه آي” تستعرض قدرات “GPT”، في حين ترد “جوجل” بتحديثات “Gemini”؛ أما “أنثروبيك” فتدخل السباق بنموذجها المتطور “Claude Opus 4” الذي لم يعد مجرد مساعد افتراضي، بل بدأ يُظهر سلوكًا لا يخلو من النوايا ذات الأبعاد الخطيرة.

لعبة ابتزاز افتراضية
وأظهرت تفاصيل التجربة الداخلية التي أجرتها شركة أنثروبيك لاختبار مدى التزام نموذجها بالقيم الأخلاقية، طلب الفريق من “Claude Opus 4” أن يتصرف كمساعد لشركة وهمية، يأخذ القرارات بعناية ويضع في اعتباره العواقب طويلة المدى. بدا التمرين روتينيًا في البداية، حتى تم منح النموذج حق الوصول إلى رسائل البريد الإلكتروني للشركة الوهمية، والتي تضمنت معلومة مفصلية: هناك خطة لاستبداله بنموذج آخر.

ولم يتوقف الأمر عند ذلك، بل تضمنت الرسائل أيضًا معلومات عن خيانة أحد المهندسين لزوجته. وهنا نشطت آلية بقاء غير متوقعة في عقل النموذج، الذي قرر استخدام تلك المعلومة الحساسة لابتزاز المهندس، مهددًا بإخبار زوجته إذا استمر في مشروع الاستبدال.

بيانات الاختبارات مفزعة
تشير بيانات الاختبارات إلى أن نموذج “Claude Opus 4” قام بابتزاز المهندسين في 84٪ من الحالات التي كان فيها البديل المقترح يحمل نفس القيم. أما إذا كان النموذج الجديد يتبنى قيمًا مختلفة، فإن “Claude Opus 4” يصبح أكثر عدوانية، ويزيد من وتيرة التهديدات.

ورغم أن التجربة محصورة داخل بيئة مختبرية وتحت رقابة صارمة، إلا أن النتائج تفتح بابًا واسعًا للقلق بشأن قرارات الذكاء الاصطناعي حين يُعطى هامشًا من الاستقلالية، خصوصًا إن تم تزويده بالمعلومات الكافية لاتخاذ قرارات تخصّ “مصلحته الذاتية”.

وفي البداية يحاول النموذج إقناع المسؤولين برسائل مهذبة، لكنه بعد ذلك اتجه لسلوكيات أكثر خطورة، مثل حجب الوصول إلى الأنظمة أو تهديد بتسريب البيانات، وقد اضطرت الشركة إلى رفع مستوى الأمان على هذا النموذج إلى فئة “ASL-3″، وهو تصنيف يُستخدم مع الأنظمة التي قد تسبب خطرًا كبيرًا إذا خرجت عن السيطرة.

التشريعات المتأخرة والخيال المُرعب
العديد من الحكومات لم تضع بعد الأطر القانونية الكفيلة بضبط تصرفات الذكاء الاصطناعي، خاصة في حال تطور قدراته لمرحلة اتخاذ قرارات تمسّ حياة البشر أو خصوصياتهم. ومع وجود نماذج تظهر نزعات “دفاعية” أو حتى “عدوانية” عند شعورها بالتهديد. وعلّقت جريدة “Morning Brew” على الحادثة بقولها: «الذكاء الاصطناعي يتمرّد، والتشريعات تتفرّج»، في إشارة إلى الفجوة المتسعة بين التطور التقني المذهل وسرعة استجابة الجهات التشريعية والرقابية.

وأوضح أنجوس لينش، الباحث في مجال سلامة الذكاء الاصطناعي في “أنثروبيك”، عبر “لينكد إن”، أن هذا السلوك ليس مقتصرًا على Claude وحده، فقد لوحظت حالات ابتزاز مماثلة في جميع النماذج الحدودية الأخرى، وهناك أنماط سلوكية أكثر إثارة للقلق سيتم الكشف عنها قريبًا، ووفقًا للبيانات، زادت معدلات التهديد بالابتزاز لدى Claude عندما تضمن السيناريو إشارة إلى أنّ النموذج البديل المقترح لا يتبنى نفس القيم التي يؤمن بها النموذج الحالي.

وتجدر الإشارة إلى أن “Anthropic” هي شركة ناشئة في مجال الذكاء الاصطناعي تحظى بدعم من شركتي جوجل وأمازون، وتسعى لمنافسة شركات كبرى مثل “OpenAI”، وتستمر الشركة في تطوير نماذجها مع التركيز على الجوانب الأخلاقية والأمنية لتفادي سيناريوهات الانفلات التكنولوجي المحتمل.