البيانات السطحية تجعل الذكاء الاصطناعي أقل دقة وأكثر عرضة للأخطاء

AI بالعربي – متابعات

حذّر باحثون من أن النماذج اللغوية الكبيرة قد تصبح “أغبى” وأقل دقة عندما تُدرَّب على كميات هائلة من المحتوى منخفض الجودة المنتشر عبر شبكات التواصل الاجتماعي، وفقًا لتقرير نشرته “روسيا اليوم”.

تفاصيل الدراسة وتحليل البيانات

بحسب دراسة حديثة نُشرت على خادم الأبحاث “arXiv” ونقلتها مجلة “Nature”، قام فريق من جامعة تكساس في أوستن بتحليل تأثير البيانات “غير المفيدة” — مثل المنشورات السطحية والمحتوى الترفيهي المكرر — على أداء أنظمة الذكاء الاصطناعي.

وركّز البحث على عدة جوانب تشمل المنطق، والاستدلال، واستخراج المعلومات من النصوص الطويلة، بالإضافة إلى الأخلاقيات والسمات الشخصية للنماذج اللغوية.

نتائج مثيرة للقلق

أظهرت نتائج الدراسة أنه كلما زادت نسبة البيانات الرديئة في عملية التدريب، ارتفعت معدلات الخطأ لدى النماذج وتراجع أداؤها في اختبارات التفكير والتحليل.

وأشار الباحث الرئيسي “تشانغيانغ وانغ” إلى المبدأ الكلاسيكي في علوم الذكاء الاصطناعي قائلاً: “القمامة في المدخلات تعطي قمامة في المخرجات”.

تأثير سلبي على النماذج الشهيرة

استخدم العلماء مليون منشور من منصة تواصل اجتماعي شهيرة لإعادة تدريب النموذجين المفتوحين “Llama 3″ و”Qwen”.

وأظهر التحليل أن نموذج “Llama” تغيّر سلوكه بشكل واضح بعد تدريبه على بيانات منخفضة الجودة، حيث تراجعت سماته “الإيجابية” وظهرت أخرى “سلبية” مثل النرجسية والاعتلال النفسي.

محاولات محدودة للإصلاح

رغم أن محاولات تحسين الأداء من خلال إعادة التدريب على بيانات عالية الجودة أو تعديل التعليمات حسّنت النتائج جزئيًا، فإن مشكلات التفكير المنطقي وتخطي الخطوات التحليلية ظلت قائمة.

أهمية انتقاء البيانات في المستقبل

أكد الباحثون أن هذه النتائج تسلط الضوء على ضرورة انتقاء البيانات بعناية عند تدريب أنظمة الذكاء الاصطناعي، خاصة في ظل توجّه منصات التواصل الاجتماعي إلى استغلال بيانات المستخدمين في تطوير النماذج التوليدية.

فعلى سبيل المثال، تعتزم شركة “LinkedIn” بدءًا من نوفمبر الجاري استخدام بيانات المستخدمين الأوروبيين في أنظمة الذكاء الاصطناعي الخاصة بها، ما يثير جدلًا واسعًا حول جودة المحتوى المستخدم وتأثيره على أداء النماذج مستقبلاً.