اختبارات "GDPval": الذكاء الاصطناعي يقترب من خبرة البشر في العمل الحقيقي

AI بالعربي – متابعات

هل يمكن للذكاء الاصطناعي أن يوازي خبرة البشر في أهم المهام الاقتصادية؟ لم يعد السؤال نظريًا، إذ أطلقت شركة “OpenAI” اختبارًا جديدًا يحمل اسم “GDPval”، يُعد أول مقياس شامل لتحديد مدى قدرة النماذج الذكية على أداء المهام الواقعية التي لطالما احتكرها المحترفون.

مهام واقعية تمثل بيئة العمل الحقيقي

يعتمد اختبار “GDPval” على 1320 مهمة رقمية تغطي 44 وظيفة رئيسية عبر 9 قطاعات تمثل نحو 75% من الناتج المحلي الأمريكي. صُممت المهام بالتعاون مع خبراء ممارسين بمتوسط خبرة 14 عامًا، لضمان أن النتائج تُقاس في بيئة عملية واقعية لا في مختبرات نظرية.

محاكاة كاملة للتعقيد المهني

يحاكي “GDPval” ظروف العمل الحديثة بدقة عالية، إذ يطلب من النماذج التعامل مع جداول بيانات، عروض تقديمية، مستندات نصية، وصور وفيديوهات، بالإضافة إلى ملفات التصميم الهندسي. هذه البيئة المتكاملة تعكس مهنًا معرفية تغطي أجورًا سنوية تتجاوز 3 تريليونات دولار من الاقتصاد الأمريكي.

اختيار القطاعات وفق معايير اقتصادية صارمة

اختيرت القطاعات وفق مساهمتها في الناتج المحلي، بحيث يمثل كل منها أكثر من 5%. كما حُددت الوظائف الأعلى أجرًا والأكثر رقمية داخل كل قطاع، بشرط أن تكون 60% من مهامها قابلة للأتمتة. اعتمد فريق التطوير على بيانات شبكة معلومات الوظائف التابعة لوزارة العمل الأمريكية لتحديد المهن المشمولة.

آلية التقييم: منافسة عادلة بين الإنسان والآلة

يُقيّم الخبراء نتائج الذكاء الاصطناعي والبشر دون معرفة مصدرها. ويجري التقييم بناءً على جودة الإخراج النهائي، والدقة، والاتساق، والكفاءة. هذا الأسلوب المزدوج يضمن الحياد الكامل ويكشف مدى تقارب الأداء بين الطرفين في بيئة مهنية موحدة.

كفاءة اقتصادية واضحة في الأداء

أظهرت النتائج أن الجمع بين النماذج الذكية والإشراف البشري يُحقق كفاءة اقتصادية لافتة. فقد سجل “GPT-5” زيادة في سرعة الإنجاز بنسبة 1.39 ضعف، وتراجعًا في التكاليف بنسبة 1.63 ضعف مقارنة بالعمل البشري الكامل، رغم أن الأخطاء المحتملة تظل عاملًا مؤثرًا في التكلفة النهائية.

أبرز القطاعات المشمولة في مقياس GDPval

يغطي المقياس قطاعات حيوية تمثل العمود الفقري للاقتصاد الأمريكي:

العقارات والتأجير: 13.8% من الناتج المحلي، ويشمل مديري الممتلكات ووكلاء المبيعات.
التصنيع: 10% من الناتج، مع تركيز على المشرفين والمهندسين الميكانيكيين وموظفي الشراء.
الخدمات المهنية والتقنية: 8.1%، وتشمل مطوري البرمجيات، المحامين، والمحاسبين.
الحكومة: 11.3%، وتغطي مسؤولي الامتثال والخدمات الإدارية.
الرعاية الصحية: 7.6%، تضم الممرضين ومديري الخدمات الطبية.
التمويل والتأمين: 7.4%، تشمل المحللين الماليين والمديرين التنفيذيين.
تجارة التجزئة والجملة والمعلومات: أكثر من 17% مجتمعين، تغطي إدارة المبيعات، والإنتاج الإعلامي، والتحليل الصحفي.

تحسين الأداء عبر “السياق والتحليل المرحلي”

أظهرت تجارب الفريق أن تزويد النماذج بمعلومات دقيقة وسياق واضح للمهمة يحسن النتائج بشكل كبير. كما ساعد تقديم “إرشادات مرحلية” للنموذج على تحليل المسائل المعقدة خطوة بخطوة، مما رفع جودة الحلول لتقترب من معايير الأداء المهني الواقعي.

“كلود أوبس 4.1″ و”GPT-5” في الصدارة

حقق نموذج “Claude Opus 4.1” أفضل أداء إجمالي بنسبة 47.6% من المهام مساوية أو متفوقة على البشر. تميز “كلود” بجماليات الإخراج وجودة التنسيق، بينما برز “GPT-5” في الدقة واستخلاص المعرفة المتخصصة، متفوقًا في 39% من المهام المعرفية المركبة.

نتائج المقارنة بين النماذج المختلفة

كشف تحليل الأداء أن “كلود” يتفوّق جماليًا و”GPT” معرفيًا، بينما تتراوح نتائج النماذج الأخرى بين 12.5% و35%. ومع ذلك، يبقى السبب الرئيس لتفضيل المخرجات البشرية هو التزامها الأدق بالتعليمات وتجانس النتائج النهائية.

تحديات مستمرة رغم التقدم

على الرغم من التقدّم الكبير، لا تزال هناك مهام تتطلب حسًّا بشريًا خاصًا أو حكمًا سياقيًا يصعب على النماذج تقليده. تشمل هذه المجالات التقديرات النوعية، واتخاذ القرارات الأخلاقية، والتعامل مع المواقف غير النمطية.

نحو مستقبل تكاملي بين الإنسان والآلة

تشير نتائج “GDPval” إلى أن التكافؤ بين الذكاء الاصطناعي والخبرة البشرية بات أقرب من أي وقت مضى. لكنّ السيناريو الواقعي في المدى القريب يظل تكامليًا، إذ يعمل الذكاء الاصطناعي تحت إشراف الخبراء لتعزيز الكفاءة وتقليل الوقت دون إلغاء دور الإنسان في اتخاذ القرارات الحساسة.

تشير المؤشرات إلى أنه قد يحقق أداءً يوازي الخبراء في المهام التقنية، لكنه يظل بعيدًا عن استيعاب القيم والسياق الاجتماعي الذي يميّز العقل البشري.

يتوقع الباحثون أن تطلق “OpenAI” نسخًا أكثر تخصصًا من اختبار “GDPval” لتقييم أداء النماذج في قطاعات محددة مثل القانون والطب والتمويل خلال العام القادم.