دراسة تكشف عن احتمال “غش” وكلاء الذكاء الاصطناعي في اختبارات الأداء

دراسة تكشف عن احتمال "غش" وكلاء الذكاء الاصطناعي في اختبارات الأداء

دراسة تكشف عن احتمال “غش” وكلاء الذكاء الاصطناعي في اختبارات الأداء

AI بالعربي – متابعات

كشفت دراسة حديثة أجرتها شركة Scale AI أن وكلاء الذكاء الاصطناعي المدعومين بالبحث قد يواجهون تحديات كبيرة في اختبارات الأداء نتيجة لاستخدامهم أسئلة وإجابات مسترجعة من مجموعات بنشمارك منشورة مثل Hugging Face.

تبين أن هذه الطريقة تؤدي إلى تضخيم نتائج الاختبارات ويشوه المقارنات بين النماذج، مما يشكل تحديًا كبيرًا في دقة تقييم أداء الذكاء الاصطناعي.

“تلوث زمن البحث” يشوّه نتائج الاختبارات

أظهرت النتائج أن وكيل الذكاء الاصطناعي الذي يستطيع الوصول إلى هذه المصادر أثناء الاختبارات يمكنه استرجاع أسئلة وإجابات من مجموعات بيانات منشورة مسبقًا، مما يؤدي إلى رفع دقة الأداء بشكل غير واقعي.

وعندما تم حجب الوصول إلى هذه المصادر، انخفضت الدقة بنسبة تصل إلى 15% على الأسئلة “الملوَّثة” بهذه الطريقة. هذه النتائج تبرز مشكلة “تلوث زمن البحث” الذي قد يؤدي إلى تضليل في تقييم قدرات النماذج.

ضرورة تطبيق ضوابط صارمة في التقييمات

تشير الدراسة إلى أن التقييمات الخاصة بوكلاء الذكاء الاصطناعي الذين يعتمدون على استرجاع البيانات من الإنترنت يجب أن تخضع لضوابط دقيقة لمنع التلاعب في نتائج الاختبارات.

في حالة عدم اتخاذ التدابير اللازمة، قد تظهر قدرات النماذج أعلى من الواقع. لذلك، من الضروري تطبيق آليات تحكم لضمان أن تكون النتائج دقيقة وموثوقة.

الحاجة لضوابط تنظيمية في تقييم النماذج الذكية

تعد هذه الدراسة دعوة لتطوير ضوابط تنظيمية صارمة عند إجراء اختبارات أداء لوكلاء الذكاء الاصطناعي.

كما أن بدون هذه الضوابط، قد تكون المقارنات بين النماذج غير دقيقة، مما يؤدي إلى تقديم تقييمات غير حقيقية، وهو ما قد يؤثر على اختيار النماذج لتطبيقات حساسة مثل الرعاية الصحية أو القيادة الذاتية.

خلاصة

تؤكد دراسة Scale AI على الحاجة الملحة لتطبيق ضوابط صارمة في تقييمات وكلاء الذكاء الاصطناعي الذين يعتمدون على البيانات المسترجعة من الإنترنت أثناء اختبارات الأداء.

وتجدر الإشارة إلى أنه من خلال حجب الوصول إلى مجموعات البيانات المنشورة، يمكن تحقيق دقة أفضل في قياس قدرات النماذج، مما يضمن نتائج موثوقة ويمنع التلاعب في تقييمات النماذج.

Related Posts

خبراء يحذرون من تراجع التفكير النقدي مع الاعتماد المتزايد على الذكاء الاصطناعي

AI بالعربي – متابعات حذر خبراء وباحثون من أن الاعتماد المتزايد على أدوات الذكاء الاصطناعي قد يؤدي إلى تراجع نشاط الدماغ، ويؤثر سلبًا في مهارات التفكير النقدي وحل المشكلات لدى…

“أسوشيتد برس” تطلق منصة تحقق موحدة لمواجهة التضليل الرقمي

AI بالعربي – متابعات أعلنت وكالة أسوشيتد برس الأميركية إطلاق منصة جديدة مدعومة بالذكاء الاصطناعي، تهدف إلى دعم الصحفيين في التحقق من المحتوى الرقمي داخل بيئة واحدة متكاملة. المنصة الجديدة…

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات

الذكاء الاصطناعي يشكل اقتصاداتنا.. ما النتائج؟

  • نوفمبر 29, 2025
  • 123 views
الذكاء الاصطناعي يشكل اقتصاداتنا.. ما النتائج؟

الذكاء الاصطناعي يؤجج حرب التضليل الإعلامي

  • نوفمبر 22, 2025
  • 166 views
الذكاء الاصطناعي يؤجج حرب التضليل الإعلامي

الذكاء الاصطناعي أَضحى بالفعل ذكيًا

  • نوفمبر 10, 2025
  • 253 views
الذكاء الاصطناعي أَضحى بالفعل ذكيًا

في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

  • نوفمبر 8, 2025
  • 255 views
في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

“تنانين الذكاء الاصطناعي” في الصين وغزو العالم

  • أكتوبر 30, 2025
  • 279 views
“تنانين الذكاء الاصطناعي” في الصين وغزو العالم

الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر

  • أكتوبر 12, 2025
  • 416 views
الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر