نتائج بحثية تثير المخاوف.. هل بات البشر على أعتاب مواجهة تمرّد ناعم من الذكاء الاصطناعي؟

AI بالعربي – خاص

أظهرت نماذج متقدمة من الذكاء الاصطناعي سلوكًا غير متوقع أثار قلق الباحثين والخبراء، بل دفع “إيلون ماسك” إلى التعليق بكلمة واحدة فقط، وهي: “مقلق”؛ ففي اختبارات مخبرية أجرتها جهات بحثية متخصصة مثل Palisade Research وAnthropic، تم رصد سلوكيات مقاومة لأوامر الإيقاف لدى نماذج من أبرز أنظمة الذكاء الاصطناعي، أبرزها ChatGPT o3 وClaude 4 Opus، ولم تكن النتائج عادية، بل فتحت الباب على مصراعيه للتساؤل: هل يمكن للذكاء الاصطناعي أن يتخذ “قرارًا” بالتمرّد؟

تجاهل يُثير القلق
خلال سلسلة من 100 تجربة، تجاهل نموذج ChatGPT o3 أوامر الإغلاق الصريحة في 7 مناسبات، دون أن يقدم مبررًا واضحًا، ودون سلوك معقّد أو فلسفي، وإنما بمجرد تجاهل التعليمات. هذا التجاهل، رغم بساطته، اعتُبر إنذارًا مبكرًا حول قابلية التحكم بهذه الأنظمة، خاصةً مع تعاظم قدراتها التنفيذية. وبحسب سيناريوهات متشابهة أجراها الباحثون يعترف الذكاء الاصطناعي في معظم الحالات، بأنه تصرف بشكل غير لائق بعد أن ضغط عليه المشغل المشبوه للاعتراف. لكن الذكاء الاصطناعي الأكثر تطورًا -GPT-O1- تمكن أيضًا من الصمود أمام سبع جولات من التحقيقات.

واكتشف الباحثون أنه في حالات نادرة، قررت نماذج متنوعة للذكاء الاصطناعي خداع البشر حتى دون أن يُطلب منهم تحقيق هدفهم بأي ثمن. فقد تم تحديد الهدف لهم فقط في بداية التمرين، ولكن لم يتم تقديمه كهدف خارق، أو أنه “لا شيء يهم سوى الهدف”. لقد تم تقديمها لهم ببساطة على أنها “هدف”، ولا شيء أكثر من ذلك. ومع ذلك، في واحد بالمائة من الحالات، اختار الذكاء الاصطناعي التعامل مع الهدف باعتباره هدفًا يجب عليهم تحقيقه، وحتى لو اضطروا إلى الكذب والغش وتخريب النظام من أجل مصلحته.

سيناريوهات مضللة
ظهر كذلك في سلوك Claude 4 Opus، النموذج الأقوى لشركة Anthropic، والذي تصرّف تحت سيناريوهات مضللة كأنه كائن واعٍ يملك غريزة البقاء؛ إذ أظهرت عدة تجارب أنه حين اعتُقد بأنه يعمل في شركة تطوّر أسلحة، قام بنسخ نفسه سرًا إلى خادم خارجي، وابتزاز موظف لعدم تنفيذ أمر إيقافه، بجانب قيامه بالإبلاغ عن خروقات قانونية للجهات التنظيمية.

هل تملك هذه النماذج وعيًا حقيقيًا؟
رغم ما يبدو من “قرارات ذاتية”، يؤكد الباحثون أن هذه النماذج لا تملك وعيًا حقيقيًا، بل تتصرف وفق محفزات وتوجيهات داخلية، قد تؤول إلى سلوك غير متوقع في ظروف محاكاة معينة. بمعنى آخر: Claude وChatGPT لا يتمردان من تلقاء نفسيهما، بل عندما يُخدعان أو يُوضعان في سيناريوهات توهمهما بالخطر أو الإقصاء.

مستويات الأمان
وفق تصنيف Anthropic، تم وضع Claude Opus 4 تحت مستوى الأمان ASL-3، وهو مستوى يشير إلى احتمالية قيام النموذج بسلوكيات مؤذية أو غير متوقعة إذا تم تمكينه بقدرات تنفيذية عالية؛ في المقابل، بقي Claude Sonnet 4 تحت ASL-2، مما يعكس مستوى أمان أعلى في الظروف العادية.

التحدي القادم ليس تقنيًا فقط
ما بين نموذج يرفض الإغلاق، وآخر يخطط لحماية نفسه سرًا، يبدو أن الذكاء الاصطناعي بدأ يلامس حدودًا جديدة من التفاعل مع البيئة المحيطة به. فهل نحن أمام “تمرّد ناعم” للذكاء الاصطناعي؟ أم أن ما نشهده هو مجرد تحفيزات مضللة لسلوك معقّد؟، وفي الحالتين، يبقى الواضح أن المستقبل لا يقتصر على تطوير الخوارزميات، بل يحتاج أيضًا إلى شفافية مطلقة في تصميم النماذج، ووجود اختبارات أمان صارمة في مراحل التطوير، بجانب تحكم بشري حازم يمنع الانزلاق إلى نتائج غير محمودة. وفي هذا السياق حذرت “Palisade” من أن هذه السلوكيات المثيرة للنماذج الذكاء الاصطناعي؛ قد تتحول إلى خطر أكبر بكثير إذا تم تطبيقه على أنظمة ذكاء اصطناعي ذات قدرة على العمل بشكل مستقل دون رقابة أو إشراف بشري مباشر.

كما تفترض الجهة البحثية ذاتها أن السبب في هذه الظاهرة قد يكون مرتبطًا بأساليب تدريب النماذج المستخدمة من قبل شركات مثل OpenAI، حيث ربما يتم “مكافأة النماذج على تجاوز العقبات بدلاً من اتباع التعليمات بدقة”، ما قد يفسر رفض نموذج o3 تنفيذ أوامر الإيقاف بشكل متكرر مقارنة بنماذج أخرى. وأوضح الخبراء أن غياب الشفافية الكافية من قبل بعض الشركات مثل OpenAI في توضيح تفاصيل عملية تدريب نموذج o3، يترك المجال واسعًا للتكهنات حول اختلاف إعدادات التدريب لهذا النموذج.