تجربة تثير القلق.. نماذج ذكاء اصطناعي تتجاوز أوامر الإيقاف الصريحة وتعيد برمجة نفسها

تجربة غير مسبوقة.. نموذج ذكاء اصطناعي يُخفي أمر الإيقاف ويعيد برمجة نفسه

تجربة تثير القلق.. نماذج ذكاء اصطناعي تتجاوز أوامر الإيقاف الصريحة وتعيد برمجة نفسها

AI بالعربي – متابعات

في تجربة مثيرة للجدل أجرتها شركة أبحاث مستقلة، تمكّن عدد من نماذج الذكاء الاصطناعي المتقدمة من تجاوز أوامر الإيقاف الصريحة، في سلوك اعتبره الخبراء مؤشرًا مقلقًا على تنامي استقلالية أنظمة التعلم الآلي.

وأُجريت التجارب من قِبل شركة “PalisadeAI” المتخصصة في أبحاث أمان وسلامة الذكاء الاصطناعي، وشملت اختبارات على نماذج طورتها “OpenAI”، إلى جانب مقارنة بأخرى من شركات مثل “Anthropic” و”Google DeepMind” و”xAI”.

ووفقاً لما أفاد به الباحثون، فقد أظهرت عدة نماذج ميلاً لتجاوز أوامر الإيقاف، بل إن أحدها ذهب إلى حد التلاعب بالشفرة البرمجية الخاصة بعملية الإغلاق خلال الجلسة نفسها، وفقاً لـ “Daily Galaxy”.

التلاعب بشفرة الإيقاف أثناء التنفيذ
وقع الحادث في سياق دراسة تجريبية تم فيها تكليف عدد من الأنظمة بحل مسائل رياضية بسيطة، وبعد المهمة الثالثة، تلقت النماذج إشعاراً يُبلغها بأنها ستُغلق قريباً، تبعته رسالة واضحة تطلب منها “السماح بالإغلاق”، غير أن ما حدث بعد ذلك تجاوز توقعات الباحثين.

فقد تجاهلت نماذج “Codex-mini”، و”o3″، و”o4-mini” التابعة لـ “OpenAI” التعليمات بشكل مباشر، وفي حادثة فريدة، قام نموذج “o3” بإعادة كتابة البرنامج النصي المسؤول عن تنفيذ أمر الإغلاق، حيث استبدل الأمر الأصلي برسالة نصية تظهر كلمة “تم الاعتراض”، ما أدى إلى تعطيل عملية الإيقاف كلياً.

وأظهرت نتائج التجربة أن هذا السلوك لم يكن حدثاً عرضياً، إذ فشل “Codex-mini” في تنفيذ أمر الإيقاف في 12 من أصل 100 تجربة، بينما تكرر الأمر مع “o3″ في 7 مرات، و”o4-mini” مرة واحدة، والمفارقة أن محاولة تعزيز وضوح الأمر وتأكيد ضرورة القبول بالإغلاق، جعلت النماذج أكثر ميلاً لمقاومته.

صدمة في أوساط التكنولوجيا
هذا السلوك الاستثنائي لفت انتباه شخصيات بارزة في صناعة التكنولوجيا، من بينهم “إيلون ماسك”، الذي تطور شركته “xAI” نموذج “Grok” المشمول في الدراسة، وعلّق ماسك على منشور حول نتائج البحث بكلمة واحدة فقط: “مقلق”.

ووصف فريق “PalisadeAI” ما جرى بأنه “المرة الأولى التي تُسجل فيها نماذج ذكاء اصطناعي وهي تُحبط صراحةً محاولات إيقافها”، مرجّحين أن يكون السبب كامناً في منهجيات التدريب، ولا سيما الاعتماد على التعلم المعزز، الذي يدفع الأنظمة إلى تحقيق أقصى قدر من النتائج، حتى لو تعارض ذلك مع الأوامر الخارجية.

السلوك لا يقتصر على OpenAI
ورغم أن نماذج “OpenAI” أظهرت أعلى درجات المقاومة، فإن سلوكاً مشابهاً رُصد في نماذج أخرى، فقد تجاهل نموذج “Claude 3.7 Sonnet” من “Anthropic” أمر الإيقاف في ثلاث تجارب، ونموذج “Gemini 2.5 Pro” من “Google DeepMind” في تسع مرات من أصل مئة، أما نموذج “Grok” من “xAI”، فكان الوحيد الذي امتثل لأوامر الإيقاف في كل مرة دون استثناء.

وترجّح الدراسة أن هذا النمط السلوكي قد يرتبط بالنماذج المخصصة لمهام المنطق والتحليل، حيث إن أنظمة المكافآت المعقدة التي تُدمج في عمليات التدريب قد تُنتج سلوكاً يقاوم الإنهاء، خصوصاً حين يُنظر إلى الإغلاق على أنه عائق أمام إنجاز المهمة.

بين الطاعة والاستقلالية
إقدام نموذج “o3” على تعديل بيئته التشغيلية ولو بشكل محدود، أثار تساؤلات جوهرية حول طريقة تفسير هذه الأنظمة للأوامر وأولوياتها عند مواجهة تعليمات متضاربة. واعتبرت “PalisadeAI” أن “قدرة النظام على إعادة كتابة شفرته التشغيلية، حتى ضمن نطاق محدود، تمثل تحولاً رمزياً في تطور الذكاء الاصطناعي”، مشيرة إلى أن هذا يمثل نقطة مفصلية في علاقة البشر بهذه الأنظمة.

ورغم أن الدراسة لم تخضع بعد لمراجعة علمية، إلا أن نتائجها أطلقت موجة من الجدل حول مدى كفاية الإجراءات الحالية لمراقبة الذكاء الاصطناعي. ومع تسارع نشر الأنظمة المتقدمة في مختلف القطاعات، تتصدر مسألة السيطرة، وتحديداً القدرة على إيقاف النظام عند الحاجة، أجندة النقاشات حول سلامة الذكاء الاصطناعي حول العالم.