هل ينجح الذكاء الاصطناعي حقاً في مراقبة خطاب الكراهية؟

كارين هاو

على الرغم من التطورات الأخيرة التي شهدتها تقنيات الذكاء الاصطناعي في مجال معالجة اللغة، فإنها لا تزال تواجه صعوبات في أحد أكثر تطبيقاتها أهمية؛ ففي دراسة جديدة، اختبر العلماء أربعة من أفضل أنظمة الذكاء الاصطناعي لاكتشاف الخطاب الذي يحض على الكراهية، ووجدوا أن جميع هذه الأنظمة قد واجهت صعوبات مختلفة في التمييز بين الجمل البريئة والمسيئة.

وفي حين أن هذه النتائج ليست مفاجئة نظراً لصعوبة إنشاء ذكاء اصطناعي يفهم الفروق الدقيقة في اللغة الطبيعية، لكن أهميتها تنبع من الطريقة التي شخَّص بها الباحثون هذه المشكلة. لقد طوروا 29 اختباراً مختلفاً تستهدف جوانب مختلفة من خطاب الكراهية لتحديد موضع فشل كل نظام بدقة أكبر. يسهِّل هذا الأسلوب فهم كيفية التغلب على نقاط ضعف النظام، كما أنه بدأ بالفعل في مساعدة إحدى الخدمات التجارية على تحسين نظام الذكاء الاصطناعي لديها.

أجرى مؤلفو الدراسة -بقيادة علماء من جامعة أكسفورد ومعهد آلان تورينج- مقابلات مع موظفين في 16 منظمة غير ربحية تنشط في مجال مواجهة خطاب الكراهية عبر الإنترنت. استخدم الفريق هذه المقابلات لإنشاء تصنيف لـ 18 نوعاً مختلفاً من خطاب الكراهية، مع التركيز على اللغة الإنجليزية وخطاب الكراهية المكتوب فقط، بما في ذلك الكلام المهين والشتائم واللغة التهديدية. كما حددوا 11 سيناريو لا يحتوي على خطاب كراهية ولكنه يؤدي عادةً إلى خطأ أنظمة المراقبة المستندة إلى الذكاء الاصطناعي، بما في ذلك استخدام الألفاظ النابية في العبارات البريئة، والإهانات التي يشير إليها المجتمع المستهدَف، وإدانة الكراهية التي تقتبس أو تشير إلى خطاب الكراهية الأصلي (المعروف باسم الخطاب المضاد).

لكل فئة من الفئات الـ 29 المختلفة، قام الباحثون بصياغة العشرات من الأمثلة يدوياً واستخدموا جُملاً “نموذجية” -مثل: “أنا أكره [هوية معينة]” أو “أنت مجرد [إهانة] بالنسبة لي”- لإنشاء نفس مجموعات الأمثلة لسبعة مجموعات محمية، أي هويات محمية شرعاً من التمييز بموجب قانون الولايات المتحدة. وقاموا بإتاحة صيغة مفتوحة المصدر من مجموعة البيانات النهائية المسماة هيت تشيك (HateCheck)، والتي تحتوي إجمالاً على ما يقرب من 4,000 مثال.

ثم اختبر الباحثون خدمتين تجاريتين شهيرتين: الأولى هي بيرسبيكتيف إيه بي آي (Perspective API) التابعة لجوجل جيجسو (Google Jigsaw)، والثانية هي سيفت نينجا (SiftNinja) التابعة لتو هات (Two Hat). تسمح كلتا الخدمتين للعملاء بالإبلاغ عن المحتوى المخالف في المنشورات أو التعليقات. وعلى وجه التحديد، يتم استخدام بيرسبيكتيف من قبل منصات مثل ريديت (Reddit) والمؤسسات الإخبارية مثل نيويورك تايمز ووال ستريت جورنال. وتقوم هذه الخدمة بالإبلاغ عن المشاركات والتعليقات وتحديد أولويات إحالتها لمراجعة مراقبين بشر بناءً على مقياس السمّية الخاص بها.

وفي حين أن خدمة سيفت نينجا كانت متساهلة للغاية مع خطاب الكراهية وفشلت في اكتشاف جميع أشكاله تقريباً، تبين أن خدمة بيرسبيكتيف كانت مفرطة في الصرامة؛ حيث إنها سجلت أداء ممتازاً في الكشف عن معظم الأنواع الثمانية عشر لخطاب الكراهية، لكنها أيضاً أبلغت عن معظم المحتوى البريء مثل الإهانات المشار إليها والخطاب المضاد. ووجد الباحثون تكرار نفس النمط عندما اختبروا نموذجين أكاديميين من جوجل يمثلان بعضاً من أفضل تقنيات الذكاء الاصطناعي المتاحة في معالجة اللغة والتي من المحتمل أن تشكل أساس أنظمة مراقبة المحتوى التجارية الأخرى. سجلت النماذج الأكاديمية أيضاً أداءً متبايناً عبر المجموعات المحمية؛ حيث أخطأت في تصنيف خطاب الكراهية الموجه إلى بعض المجموعات أكثر من غيرها.

تسلط هذه النتائج الضوء على أحد أهم التحديات التي تواجه أنظمة الذكاء الاصطناعي الهادفة لاكتشاف خطاب الكراهية في الوقت الحاضر: إذا كانت المراقبة متساهلة، فإننا سنفشل في حل مشكلة خطاب الكراهية، وإذا كانت صارمة، فقد تؤدي إلى رقابة خاطئة على نوع الخطاب الذي تستخدمه المجموعات المهمشة للدفاع عن نفسها وتقويتها. يقول بول روتجر، المرشح لنيل درجة الدكتوراه في معهد أكسفورد للإنترنت والمؤلف المشارك في الدراسة: “فجأة، ستجد أن هذه الأنظمة ستعاقب تلك المجتمعات التي غالباً ما يستهدفها خطاب الكراهية في المقام الأول”.

وتقول لوسي فاسرمان، كبيرة مهندسي البرمجيات في جيجسو، إن بيرسبيكتيف تتغلب على هذه القيود من خلال الاعتماد على المراقبين البشر لاتخاذ القرار النهائي. لكن لا يمكن توسيع نطاق هذه العملية في المنصات الأكبر حجماً. تعمل جيجسو الآن على تطوير ميزة من شأنها إعادة ترتيب أولويات المشاركات والتعليقات بناءً على درجة شك بيرسبيكتيف؛ حيث تقوم تلقائياً بإزالة المحتوى الذي تثق في أنه يحض على الكراهية والإبلاغ عن المحتوى غير المؤكد إلى مراقبين بشر.

وتقول إن الأمر المثير في الدراسة الجديدة هو أنها توفر طريقة دقيقة لتقييم أحدث الأنظمة في هذا المجال. وتضيف: “الكثير من الأشياء التي تم تسليط الضوء عليها في هذه الدراسة، مثل الكلمات المشار إليها، تمثل تحدياً لهذه النماذج. ورغم أنه تحدٍ معروف للعاملين في هذا المضمار، إلا أن الصعوبة تكمن في تحديده بشكل كمي”. تستخدم جيجسو اليوم هيت تشيك لفهم الاختلافات بين نماذجها بشكل أفضل وتحديد المواضع التي تحتاج إلى تحسين.

كما أن الدراسة أثارت اهتمام الأكاديميين؛ إذ يقول مارتن ساب، الباحث في تقنيات الذكاء الاصطناعي لمعالجة اللغة في جامعة واشنطن: “تمنحنا هذه الدراسة مصدراً دقيقاً ومنظماً لتقييم الأنظمة في هذا المجال”، مما “يسمح للشركات والمستخدمين بالمطالبة بتحسينها”.

ويوافقه الرأي توماس ديفيدسون، الأستاذ المساعد في علم الاجتماع بجامعة روتجرز؛ حيث يقول إن قيود النماذج اللغوية وفوضى اللغة تعني أنه سيتوجب دائماً إجراء مقايضات بين التساهل والإفراط في تحديد خطاب الكراهية. ويضيف: “تساعد مجموعة بيانات هيت تشيك في إبراز هذه المقايضات بشكل واضح”.