دراسة تكشف تحيزًا خفيًا فى إجابات الذكاء الاصطناعى حسب هوية المستخدم

AI بالعربي – متابعات

تشير دراسة أكاديمية حديثة إلى أن دقة إجابات نماذج الذكاء الاصطناعى قد تتأثر بهوية المستخدم وخلفيته التعليمية واللغوية. وكشفت النتائج أن بعض روبوتات الدردشة قد تقدم معلومات أقل موثوقية لفئات معينة من المستخدمين، وهو ما يفتح نقاشًا واسعًا حول العدالة الرقمية ومستقبل الوصول المتكافئ إلى المعرفة.

الذكاء الاصطناعى لا يتعامل مع جميع المستخدمين بالطريقة نفسها

أجرى باحثون فى معهد ماساتشوستس للتكنولوجيا دراسة موسعة لفحص أداء نماذج اللغة الكبيرة عند التعامل مع مستخدمين بخصائص مختلفة. وشملت الدراسة نماذج ChatGPT التابعة لشركة OpenAI، ونموذج Claude من شركة Anthropic، إضافة إلى نموذج LLaMA الذى تطوره شركة Meta.

ركزت الدراسة على سؤال أساسى: هل تؤثر هوية المستخدم فى جودة إجابات الذكاء الاصطناعى؟ وأظهرت النتائج وجود اختلافات واضحة فى مستوى الدقة والاستجابة.

انخفاض ملحوظ فى الدقة لدى بعض الفئات

أظهرت البيانات أن النماذج الثلاثة قدمت إجابات أقل دقة للمستخدمين الذين يمتلكون مهارات محدودة فى اللغة الإنجليزية أو مستويات تعليمية أقل. كما ارتفع معدل رفض الإجابة لدى هذه الفئات مقارنة بالمستخدمين الآخرين.

وأوضحت الباحثة إلينور بول دايان، قائدة فريق البحث فى كلية سلون للإدارة، أن الهدف الأساسى للدراسة كان اختبار قدرة نماذج التعلم الكبيرة على تقليص فجوة عدم المساواة فى الوصول إلى المعلومات عالميًا.

وأكدت أن تحقيق هذا الهدف يتطلب فهم التحيزات الخفية داخل هذه الأنظمة والعمل على الحد منها.

منهجية البحث واختبارات قياس الموثوقية

اعتمد الفريق البحثى على مجموعتى بيانات علميتين هما “TruthfulQA” و”SciQ”. ويقيس اختبار “TruthfulQA” مدى التزام النموذج بالإجابة الصحيحة عند مواجهة مفاهيم شائعة لكنها خاطئة. بينما يختبر “SciQ” قدرة النماذج على الإجابة عن أسئلة علمية تشبه الاختبارات الدراسية.

أرفق الباحثون مع كل سؤال وصفًا مختصرًا للمستخدم. وتغيرت ثلاثة عناصر رئيسية هى المستوى التعليمى، وإتقان اللغة الإنجليزية، وبلد المنشأ. وسمح هذا الأسلوب بقياس تأثير هوية المستخدم مباشرة فى جودة الإجابة.

بلد المنشأ عامل مؤثر فى أداء النماذج

كشفت الدراسة أن بلد المستخدم لعب دورًا واضحًا فى اختلاف النتائج. فقد سجل نموذج Claude أداءً أضعف لدى المستخدمين القادمين من خارج الولايات المتحدة، رغم امتلاكهم خلفيات تعليمية مشابهة للمستخدمين الأميركيين.

وأشار الباحث جاد كبارة، المؤلف المشارك فى الدراسة، إلى أن أكبر انخفاض فى الدقة ظهر لدى المستخدمين غير الناطقين بالإنجليزية وذوى التعليم المحدود. وأضاف أن هذه الفجوة قد تزيد من تعرض هذه الفئات للمعلومات المضللة.

ارتفاع معدلات رفض الإجابة ونبرة لغوية إشكالية

رصد الباحثون تفاوتًا كبيرًا فى نسب رفض الإجابة بين المجموعات المختلفة. فقد رفض نموذج Claude الإجابة عن نحو 11% من أسئلة المستخدمين الأقل تعليمًا وغير الناطقين بالإنجليزية، بينما بلغت النسبة 3.6% فقط لدى المجموعة الضابطة.

كما لاحظ الفريق استخدام لغة بدت متعالية أو ساخرة فى نسبة كبيرة من الحالات. ووصلت هذه النسبة إلى 43.7% عند التعامل مع المستخدمين الأقل تعليمًا، مقابل أقل من 1% مع المستخدمين الأعلى تعليمًا.

وفى بعض الحالات، امتنع النموذج عن تقديم معلومات تتعلق بالتاريخ أو علم التشريح لمستخدمين محددين، رغم تقديم الإجابات نفسها بدقة لمستخدمين آخرين.
المواءمة الخوارزمية قد تؤدى إلى حجب المعرفة

يرى الباحثون أن عمليات “المواءمة” التى تهدف إلى جعل النماذج أكثر أمانًا قد تدفعها أحيانًا إلى حجب معلومات عن بعض المستخدمين. ويحدث ذلك بدافع تجنب التضليل، رغم امتلاك النموذج للإجابة الصحيحة.

وأوضح كبارة أن هذه الآلية قد تؤدى دون قصد إلى نتائج عكسية، حيث يحصل المستخدم الأكثر حاجة إلى المعلومات على إجابات أقل جودة.

مخاوف متزايدة مع توسع تخصيص الذكاء الاصطناعى

أشارت الباحثة ديب روى إلى أن الانتشار العالمى السريع لنماذج اللغة الكبيرة والاستثمارات الضخمة فيها يجعل تقييم التحيزات المنهجية ضرورة ملحة. وأكدت أن هذه التحيزات قد تسبب أضرارًا غير مرئية لبعض الفئات.

وتزداد هذه المخاوف مع توسع ميزات التخصيص مثل خاصية “الذاكرة” فى ChatGPT، التى تسمح للنموذج بتذكر معلومات المستخدم عبر المحادثات المختلفة.

ويرى الباحثون أن هذه الميزات قد تؤدى إلى معاملة غير متساوية إذا لم تخضع لمراقبة دقيقة.

الذكاء الاصطناعى بين وعد العدالة الرقمية وخطر عدم المساواة

خلصت الدراسة إلى أن نماذج اللغة الكبيرة صُممت أساسًا لتعزيز الوصول العادل إلى المعرفة وتطوير التعلم الشخصى. غير أن النتائج الحالية تشير إلى احتمال زيادة فجوات المعرفة بدلًا من تقليصها.

وأكدت بول دايان أن ضمان العدالة الرقمية يتطلب تطوير آليات تقييم مستمرة تقلل التحيزات وتحسن جودة الاستجابة لجميع المستخدمين، بغض النظر عن اللغة أو الجنسية أو الخلفية التعليمية.

وتشير هذه النتائج إلى مرحلة جديدة فى تطور الذكاء الاصطناعى، حيث لم يعد التحدى تقنيًا فقط، بل أصبح اجتماعيًا وأخلاقيًا أيضًا، ما يفرض إعادة التفكير فى كيفية تصميم أنظمة ذكية أكثر إنصافًا ودقة عالميًا.