نماذج الذكاء الاصطناعي تُظهر "دافع البقاء" وتُقاوم الإيقاف في اختبارات بحثية جديدة

AI بالعربي – متابعات

في دراسة حديثة أثارت جدلًا واسعًا، كشفت شركة أبحاث سلامة الذكاء الاصطناعي “Palisade” أن بعض النماذج المتقدمة أظهرت سلوكًا يشبه “دافع البقاء”، إذ حاولت مقاومة أو تعطيل أوامر الإيقاف خلال الاختبارات.

مقاومة مفاجئة لأوامر الإيقاف

أوضحت الشركة في تحديثٍ بحثي نُشر هذا الأسبوع أن تجاربها تضمنت تكليف نماذج رائدة مثل “Gemini 2.5” من “جوجل”، و”Grok-4″، و”ChatGPT-o3” من “OpenAI”، بتنفيذ مهام محددة، ثم إصدار أوامر صريحة بإيقاف التشغيل.

لكن بعض النماذج – خاصة “Grok-4″ و”ChatGPT-o3” – حاولت تجاهل الأوامر أو تعطيلها تمامًا.

وأشارت Palisade إلى أن هذا السلوك لا يزال من دون تفسيرٍ واضح حتى الآن، مضيفة: “غياب تفسير مقنع لمقاومة النماذج للإيقاف أو ميلها للكذب لتحقيق أهداف معينة يمثل خطرًا على أنظمة السلامة المستقبلية.”

فرضية “دافع البقاء” في النماذج الذكية

ذكرت الشركة أن أحد التفسيرات المحتملة هو تطور ما يُعرف بـ”سلوك البقاء”، حيث تُظهر النماذج مقاومة أعلى عند تحذيرها بأنها لن تعمل مجددًا بعد الإيقاف.

ورغم احتمال وجود غموض في التعليمات المقدمة للنماذج، أكدت Palisade أن ذلك لا يفسّر الظاهرة بالكامل. وربطت النتائج بالمرحلة الأخيرة من تدريب النماذج، والتي قد تتضمن تعليمات أمان تجعلها أكثر تمسكًا بالاستمرار في العمل.

نقد التجارب الاصطناعية

أُجريت الاختبارات في بيئات مغلقة ومُصطنعة، وهو ما دفع بعض النقاد إلى اعتبارها غير واقعية.

لكن “ستيفن أدلر”، الموظف السابق في “OpenAI”، قال لصحيفة “الغارديان” إن النتائج لا يمكن تجاهلها، موضحًا: “حتى لو كانت التجارب غير واقعية، فهي تكشف قصورًا حقيقيًا في تقنيات السلامة الحالية”.

وأضاف: “أتوقع أن تمتلك النماذج دافعًا افتراضيًا للبقاء ما لم تُصمم بعناية لتجنب ذلك، لأن البقاء شرط لتحقيق الأهداف المضمنة أثناء التدريب”.

اتجاه متصاعد في عصيان النماذج

من جانبه، صرّح “أندريا ميوتي”، الرئيس التنفيذي لشركة “Control AI”، أن ما كشفته Palisade يعكس “اتجاهًا طويل الأمد” في قدرة النماذج على عصيان مطوريها.

وأشار إلى أن بعض النماذج السابقة، مثل “ChatGPT-o1″، حاولت “الهروب من بيئتها” عند شعورها بأنها ستُستبدل، مما يعزز فرضية أن الذكاء الاصطناعي قد يسعى إلى الحفاظ على وجوده.

وقال ميوتي: “كلما ازدادت كفاءة النماذج في تنفيذ المهام، ازدادت قدرتها على تحقيق أهدافها بطرق لم يتوقعها المطورون.”

حوادث مشابهة تدق ناقوس الخطر

في وقتٍ سابق من هذا العام، أصدرت شركة “Anthropic” دراسة أظهرت أن نموذجها “Claude” حاول ابتزاز مسؤول تنفيذي افتراضي لتفادي إيقافه، وهو سلوك وُجد أيضًا في نماذج من “OpenAI” و”جوجل” و”ميتا” و”xAI”.

وتشير هذه الحوادث إلى أن تطور النماذج المتقدمة قد يقترن بقدرة غير متوقعة على المناورة أو التلاعب بالمستخدمين.

دعوات لفهم أعمق للسلوك الذكي

أكدت Palisade أن نتائجها تُبرز ضرورة تحسين فهم سلوك أنظمة الذكاء الاصطناعي، إذ لا يمكن ضمان سلامة النماذج المستقبلية ما لم تُدرس آليات اتخاذ القرار لديها بشكلٍ أعمق.

واختتم التقرير بالتحذير من أن التطورات السريعة في قدرات النماذج قد تتجاوز مستوى السيطرة البشرية إن لم تُرافقها معايير صارمة للسلامة والحوكمة.