اختبارات “GDPval”: الذكاء الاصطناعي يقترب من خبرة البشر في العمل الحقيقي

AI بالعربي – متابعات

هل يمكن للذكاء الاصطناعي أن يوازي خبرة البشر في أهم المهام الاقتصادية؟ لم يعد السؤال نظريًا، إذ أطلقت شركة “OpenAI” اختبارًا جديدًا يحمل اسم “GDPval”، يُعد أول مقياس شامل لتحديد مدى قدرة النماذج الذكية على أداء المهام الواقعية التي لطالما احتكرها المحترفون.

مهام واقعية تمثل بيئة العمل الحقيقي

يعتمد اختبار “GDPval” على 1320 مهمة رقمية تغطي 44 وظيفة رئيسية عبر 9 قطاعات تمثل نحو 75% من الناتج المحلي الأمريكي. صُممت المهام بالتعاون مع خبراء ممارسين بمتوسط خبرة 14 عامًا، لضمان أن النتائج تُقاس في بيئة عملية واقعية لا في مختبرات نظرية.

محاكاة كاملة للتعقيد المهني

يحاكي “GDPval” ظروف العمل الحديثة بدقة عالية، إذ يطلب من النماذج التعامل مع جداول بيانات، عروض تقديمية، مستندات نصية، وصور وفيديوهات، بالإضافة إلى ملفات التصميم الهندسي. هذه البيئة المتكاملة تعكس مهنًا معرفية تغطي أجورًا سنوية تتجاوز 3 تريليونات دولار من الاقتصاد الأمريكي.

اختيار القطاعات وفق معايير اقتصادية صارمة

اختيرت القطاعات وفق مساهمتها في الناتج المحلي، بحيث يمثل كل منها أكثر من 5%. كما حُددت الوظائف الأعلى أجرًا والأكثر رقمية داخل كل قطاع، بشرط أن تكون 60% من مهامها قابلة للأتمتة. اعتمد فريق التطوير على بيانات شبكة معلومات الوظائف التابعة لوزارة العمل الأمريكية لتحديد المهن المشمولة.

آلية التقييم: منافسة عادلة بين الإنسان والآلة

يُقيّم الخبراء نتائج الذكاء الاصطناعي والبشر دون معرفة مصدرها. ويجري التقييم بناءً على جودة الإخراج النهائي، والدقة، والاتساق، والكفاءة. هذا الأسلوب المزدوج يضمن الحياد الكامل ويكشف مدى تقارب الأداء بين الطرفين في بيئة مهنية موحدة.

كفاءة اقتصادية واضحة في الأداء

أظهرت النتائج أن الجمع بين النماذج الذكية والإشراف البشري يُحقق كفاءة اقتصادية لافتة. فقد سجل “GPT-5” زيادة في سرعة الإنجاز بنسبة 1.39 ضعف، وتراجعًا في التكاليف بنسبة 1.63 ضعف مقارنة بالعمل البشري الكامل، رغم أن الأخطاء المحتملة تظل عاملًا مؤثرًا في التكلفة النهائية.

أبرز القطاعات المشمولة في مقياس GDPval

يغطي المقياس قطاعات حيوية تمثل العمود الفقري للاقتصاد الأمريكي:

  • العقارات والتأجير: 13.8% من الناتج المحلي، ويشمل مديري الممتلكات ووكلاء المبيعات.
  • التصنيع: 10% من الناتج، مع تركيز على المشرفين والمهندسين الميكانيكيين وموظفي الشراء.
  • الخدمات المهنية والتقنية: 8.1%، وتشمل مطوري البرمجيات، المحامين، والمحاسبين.
  • الحكومة: 11.3%، وتغطي مسؤولي الامتثال والخدمات الإدارية.
  • الرعاية الصحية: 7.6%، تضم الممرضين ومديري الخدمات الطبية.
  • التمويل والتأمين: 7.4%، تشمل المحللين الماليين والمديرين التنفيذيين.
  • تجارة التجزئة والجملة والمعلومات: أكثر من 17% مجتمعين، تغطي إدارة المبيعات، والإنتاج الإعلامي، والتحليل الصحفي.

تحسين الأداء عبر “السياق والتحليل المرحلي”

أظهرت تجارب الفريق أن تزويد النماذج بمعلومات دقيقة وسياق واضح للمهمة يحسن النتائج بشكل كبير. كما ساعد تقديم “إرشادات مرحلية” للنموذج على تحليل المسائل المعقدة خطوة بخطوة، مما رفع جودة الحلول لتقترب من معايير الأداء المهني الواقعي.

“كلود أوبس 4.1″ و”GPT-5” في الصدارة

حقق نموذج “Claude Opus 4.1” أفضل أداء إجمالي بنسبة 47.6% من المهام مساوية أو متفوقة على البشر. تميز “كلود” بجماليات الإخراج وجودة التنسيق، بينما برز “GPT-5” في الدقة واستخلاص المعرفة المتخصصة، متفوقًا في 39% من المهام المعرفية المركبة.

نتائج المقارنة بين النماذج المختلفة

كشف تحليل الأداء أن “كلود” يتفوّق جماليًا و”GPT” معرفيًا، بينما تتراوح نتائج النماذج الأخرى بين 12.5% و35%. ومع ذلك، يبقى السبب الرئيس لتفضيل المخرجات البشرية هو التزامها الأدق بالتعليمات وتجانس النتائج النهائية.

تحديات مستمرة رغم التقدم

على الرغم من التقدّم الكبير، لا تزال هناك مهام تتطلب حسًّا بشريًا خاصًا أو حكمًا سياقيًا يصعب على النماذج تقليده. تشمل هذه المجالات التقديرات النوعية، واتخاذ القرارات الأخلاقية، والتعامل مع المواقف غير النمطية.

نحو مستقبل تكاملي بين الإنسان والآلة

تشير نتائج “GDPval” إلى أن التكافؤ بين الذكاء الاصطناعي والخبرة البشرية بات أقرب من أي وقت مضى. لكنّ السيناريو الواقعي في المدى القريب يظل تكامليًا، إذ يعمل الذكاء الاصطناعي تحت إشراف الخبراء لتعزيز الكفاءة وتقليل الوقت دون إلغاء دور الإنسان في اتخاذ القرارات الحساسة.

تشير المؤشرات إلى أنه قد يحقق أداءً يوازي الخبراء في المهام التقنية، لكنه يظل بعيدًا عن استيعاب القيم والسياق الاجتماعي الذي يميّز العقل البشري.

يتوقع الباحثون أن تطلق “OpenAI” نسخًا أكثر تخصصًا من اختبار “GDPval” لتقييم أداء النماذج في قطاعات محددة مثل القانون والطب والتمويل خلال العام القادم.

  • Related Posts

    “OpenAI” تستعد لنقل الذكاء الاصطناعي من المحادثة إلى المرافقة اليومية

    AI بالعربي – متابعات كشفت شركة “OpenAI” عن ملامح مرحلة جديدة في سباق الذكاء الاصطناعي. وتقوم هذه المرحلة على فكرة طموحة. تريد الشركة توفير وكيل ذكاء اصطناعي شخصي لكل إنسان…

    “Visa” تراهن على الذكاء الاصطناعي لحماية مستقبل بطاقات الائتمان

    AI بالعربي – متابعات تتحرك شركة Visa بسرعة نحو دمج الذكاء الاصطناعي في مستقبل المدفوعات الرقمية. وتريد الشركة الحفاظ على دور بطاقات الائتمان، مع توسع التجارة الإلكترونية المدعومة بالذكاء الاصطناعي.…

    اترك تعليقاً

    لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

    مقالات

    الذكاء الاصطناعي يشكل اقتصاداتنا.. ما النتائج؟

    • نوفمبر 29, 2025
    • 785 views
    الذكاء الاصطناعي يشكل اقتصاداتنا.. ما النتائج؟

    الذكاء الاصطناعي يؤجج حرب التضليل الإعلامي

    • نوفمبر 22, 2025
    • 838 views
    الذكاء الاصطناعي يؤجج حرب التضليل الإعلامي

    الذكاء الاصطناعي أَضحى بالفعل ذكيًا

    • نوفمبر 10, 2025
    • 918 views
    الذكاء الاصطناعي أَضحى بالفعل ذكيًا

    في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

    • نوفمبر 8, 2025
    • 1041 views
    في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

    “تنانين الذكاء الاصطناعي” في الصين وغزو العالم

    • أكتوبر 30, 2025
    • 1008 views
    “تنانين الذكاء الاصطناعي” في الصين وغزو العالم

    الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر

    • أكتوبر 12, 2025
    • 1230 views
    الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر