اختبارات “GDPval”: الذكاء الاصطناعي يقترب من خبرة البشر في العمل الحقيقي

AI بالعربي – متابعات

هل يمكن للذكاء الاصطناعي أن يوازي خبرة البشر في أهم المهام الاقتصادية؟ لم يعد السؤال نظريًا، إذ أطلقت شركة “OpenAI” اختبارًا جديدًا يحمل اسم “GDPval”، يُعد أول مقياس شامل لتحديد مدى قدرة النماذج الذكية على أداء المهام الواقعية التي لطالما احتكرها المحترفون.

مهام واقعية تمثل بيئة العمل الحقيقي

يعتمد اختبار “GDPval” على 1320 مهمة رقمية تغطي 44 وظيفة رئيسية عبر 9 قطاعات تمثل نحو 75% من الناتج المحلي الأمريكي. صُممت المهام بالتعاون مع خبراء ممارسين بمتوسط خبرة 14 عامًا، لضمان أن النتائج تُقاس في بيئة عملية واقعية لا في مختبرات نظرية.

محاكاة كاملة للتعقيد المهني

يحاكي “GDPval” ظروف العمل الحديثة بدقة عالية، إذ يطلب من النماذج التعامل مع جداول بيانات، عروض تقديمية، مستندات نصية، وصور وفيديوهات، بالإضافة إلى ملفات التصميم الهندسي. هذه البيئة المتكاملة تعكس مهنًا معرفية تغطي أجورًا سنوية تتجاوز 3 تريليونات دولار من الاقتصاد الأمريكي.

اختيار القطاعات وفق معايير اقتصادية صارمة

اختيرت القطاعات وفق مساهمتها في الناتج المحلي، بحيث يمثل كل منها أكثر من 5%. كما حُددت الوظائف الأعلى أجرًا والأكثر رقمية داخل كل قطاع، بشرط أن تكون 60% من مهامها قابلة للأتمتة. اعتمد فريق التطوير على بيانات شبكة معلومات الوظائف التابعة لوزارة العمل الأمريكية لتحديد المهن المشمولة.

آلية التقييم: منافسة عادلة بين الإنسان والآلة

يُقيّم الخبراء نتائج الذكاء الاصطناعي والبشر دون معرفة مصدرها. ويجري التقييم بناءً على جودة الإخراج النهائي، والدقة، والاتساق، والكفاءة. هذا الأسلوب المزدوج يضمن الحياد الكامل ويكشف مدى تقارب الأداء بين الطرفين في بيئة مهنية موحدة.

كفاءة اقتصادية واضحة في الأداء

أظهرت النتائج أن الجمع بين النماذج الذكية والإشراف البشري يُحقق كفاءة اقتصادية لافتة. فقد سجل “GPT-5” زيادة في سرعة الإنجاز بنسبة 1.39 ضعف، وتراجعًا في التكاليف بنسبة 1.63 ضعف مقارنة بالعمل البشري الكامل، رغم أن الأخطاء المحتملة تظل عاملًا مؤثرًا في التكلفة النهائية.

أبرز القطاعات المشمولة في مقياس GDPval

يغطي المقياس قطاعات حيوية تمثل العمود الفقري للاقتصاد الأمريكي:

  • العقارات والتأجير: 13.8% من الناتج المحلي، ويشمل مديري الممتلكات ووكلاء المبيعات.
  • التصنيع: 10% من الناتج، مع تركيز على المشرفين والمهندسين الميكانيكيين وموظفي الشراء.
  • الخدمات المهنية والتقنية: 8.1%، وتشمل مطوري البرمجيات، المحامين، والمحاسبين.
  • الحكومة: 11.3%، وتغطي مسؤولي الامتثال والخدمات الإدارية.
  • الرعاية الصحية: 7.6%، تضم الممرضين ومديري الخدمات الطبية.
  • التمويل والتأمين: 7.4%، تشمل المحللين الماليين والمديرين التنفيذيين.
  • تجارة التجزئة والجملة والمعلومات: أكثر من 17% مجتمعين، تغطي إدارة المبيعات، والإنتاج الإعلامي، والتحليل الصحفي.

تحسين الأداء عبر “السياق والتحليل المرحلي”

أظهرت تجارب الفريق أن تزويد النماذج بمعلومات دقيقة وسياق واضح للمهمة يحسن النتائج بشكل كبير. كما ساعد تقديم “إرشادات مرحلية” للنموذج على تحليل المسائل المعقدة خطوة بخطوة، مما رفع جودة الحلول لتقترب من معايير الأداء المهني الواقعي.

“كلود أوبس 4.1″ و”GPT-5” في الصدارة

حقق نموذج “Claude Opus 4.1” أفضل أداء إجمالي بنسبة 47.6% من المهام مساوية أو متفوقة على البشر. تميز “كلود” بجماليات الإخراج وجودة التنسيق، بينما برز “GPT-5” في الدقة واستخلاص المعرفة المتخصصة، متفوقًا في 39% من المهام المعرفية المركبة.

نتائج المقارنة بين النماذج المختلفة

كشف تحليل الأداء أن “كلود” يتفوّق جماليًا و”GPT” معرفيًا، بينما تتراوح نتائج النماذج الأخرى بين 12.5% و35%. ومع ذلك، يبقى السبب الرئيس لتفضيل المخرجات البشرية هو التزامها الأدق بالتعليمات وتجانس النتائج النهائية.

تحديات مستمرة رغم التقدم

على الرغم من التقدّم الكبير، لا تزال هناك مهام تتطلب حسًّا بشريًا خاصًا أو حكمًا سياقيًا يصعب على النماذج تقليده. تشمل هذه المجالات التقديرات النوعية، واتخاذ القرارات الأخلاقية، والتعامل مع المواقف غير النمطية.

نحو مستقبل تكاملي بين الإنسان والآلة

تشير نتائج “GDPval” إلى أن التكافؤ بين الذكاء الاصطناعي والخبرة البشرية بات أقرب من أي وقت مضى. لكنّ السيناريو الواقعي في المدى القريب يظل تكامليًا، إذ يعمل الذكاء الاصطناعي تحت إشراف الخبراء لتعزيز الكفاءة وتقليل الوقت دون إلغاء دور الإنسان في اتخاذ القرارات الحساسة.

تشير المؤشرات إلى أنه قد يحقق أداءً يوازي الخبراء في المهام التقنية، لكنه يظل بعيدًا عن استيعاب القيم والسياق الاجتماعي الذي يميّز العقل البشري.

يتوقع الباحثون أن تطلق “OpenAI” نسخًا أكثر تخصصًا من اختبار “GDPval” لتقييم أداء النماذج في قطاعات محددة مثل القانون والطب والتمويل خلال العام القادم.

  • Related Posts

    مؤسس إنفيديا: الذكاء الاصطناعي يقود أكبر طفرة استثمارية في تاريخ التكنولوجيا

    AI بالعربي – متابعات أكد جينسن هوانج، مؤسس شركة “إنفيديا” ورئيسها التنفيذي، أن الذكاء الاصطناعي لم يعد مجرد تطبيق تقني أو نموذج منفصل، بل أصبح بنية تحتية أساسية تشبه الكهرباء…

    تزايد الاعتماد على الذكاء الاصطناعي في الحصول على الاستشارات المالية

    AI بالعربي – متابعات يتزايد اعتماد الأفراد حول العالم على روبوتات الدردشة المدعومة بالذكاء الاصطناعي للحصول على نصائح مالية واستثمارية. ويأتي هذا التحول نتيجة سهولة الوصول إلى هذه الأدوات وقدرتها…

    اترك تعليقاً

    لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

    مقالات

    الذكاء الاصطناعي يشكل اقتصاداتنا.. ما النتائج؟

    • نوفمبر 29, 2025
    • 390 views
    الذكاء الاصطناعي يشكل اقتصاداتنا.. ما النتائج؟

    الذكاء الاصطناعي يؤجج حرب التضليل الإعلامي

    • نوفمبر 22, 2025
    • 419 views
    الذكاء الاصطناعي يؤجج حرب التضليل الإعلامي

    الذكاء الاصطناعي أَضحى بالفعل ذكيًا

    • نوفمبر 10, 2025
    • 527 views
    الذكاء الاصطناعي أَضحى بالفعل ذكيًا

    في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

    • نوفمبر 8, 2025
    • 589 views
    في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

    “تنانين الذكاء الاصطناعي” في الصين وغزو العالم

    • أكتوبر 30, 2025
    • 585 views
    “تنانين الذكاء الاصطناعي” في الصين وغزو العالم

    الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر

    • أكتوبر 12, 2025
    • 680 views
    الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر