هل يمكن للذكاء الاصطناعي أن يحل محل المشاركين البشريين في الأبحاث؟

Chris Stokel-Walker

مع التطور المستمر للنماذج اللغوية الكبيرة مثل GPT-4 من OpenAI وزيادة تعقيدها، بدأ بعض أفراد مجتمع البحث في التفكير تدريجياً في إمكانية استخدام الذكاء الاصطناعي لتعويض المشاركين البشر في بعض دراسات التجارب البشرية. وهذا يعني أنه يمكن توفير الوقت والمال الذي يتطلبه تجنيد المشاركين البشريين في هذه الدراسات.

هذه هي نتائج ورقة بحثية جديدة تم قبولها مبدئيًا للعرض في مؤتمر رابطة الآلات الحاسبة حول عوامل البشر في أنظمة الحوسبة (CHI)، وهو أكبر تجمع من نوعه في مجال التفاعل بين الإنسان والكمبيوتر. تستند الورقة إلى أكثر من عشر دراسات منشورة تختبر أو تقترح استخدام النماذج اللغوية الكبيرة (LLMs) لتحل محل المشاركين البشر في الأبحاث أو لتحليل نتائج الأبحاث بدلاً من البشر. لكن العديد من الخبراء يقلقون من أن هذه الممارسة قد تنتج نتائج علمية ضعيفة.

تستشهد هذه المراجعة الجديدة، التي قادها “ويليام أجنيو”، الذي يدرس أخلاقيات الذكاء الاصطناعي ورؤية الكمبيوتر في جامعة كارنيجي ميلون، بـ13 تقريرًا فنيًا أو مقالة بحثية وثلاث منتجات تجارية؛ جميعها تقترح استبدال المشاركين البشر في دراسات تتعلق بسلوك الإنسان وعلم النفس وأبحاث التسويق أو تطوير الذكاء الاصطناعي باستخدام نماذج اللغة الكبيرة (LLMs) أو أن تحل محلهم. وعمليًا، سيقوم مؤلفو الدراسة بطرح الأسئلة التي كانت موجهة للبشر على نماذج اللغة الكبيرة بدلاً من ذلك، وسيطلبون “أفكارها” أو ردودها على مختلف المطالبات.

فازت ورقة بحثية أولية بجائزة أفضل ورقة في مؤتمر CHI في العام الماضي، وقامت بتجربة لاختبار ما إذا كان بإمكان نموذج اللغة GPT-3 السابق من OpenAI أن يولد استجابات تشابه استجابات البشر في دراسة نوعية حول تجربة اللعب بألعاب الفيديو كأداة فنية. طلب الباحثون من النموذج توليد استجابات يمكن أن تحل محل الإجابات التي كتبها البشر على أسئلة مثل: “هل لعبت بلعبة رقمية كأداة فنية من قبل؟ فكر في الفن بالطريقة التي تبدو منطقية بالنسبة لك”. ثم قدمت هذه الاستجابات لمجموعة من المشاركين الذين قيموها على أنها أكثر تشابهًا مع البشر مقارنة بالإجابات التي كتبها البشر بشكل فعلي.

غالبًا ما تستشهد مثل هذه المقترحات بأربع فوائد رئيسية لاستخدام الذكاء الاصطناعي في تركيب البيانات، كما وجد “أجنيو” وزملاؤه في مراجعتهم الجديدة. يمكن أن يزيد ذلك من السرعة، ويقلل التكاليف، ويتجنب المخاطر على المشاركين، ويزيد التنوع من خلال محاكاة تجارب الفئات السكانية الضعيفة التي قد لا تتقدم للمشاركة في الدراسات الواقعية. لكن يخلص مؤلفو الورقة الجديدة إلى أن هذه الطرق البحثية ستتعارض مع القيم المركزية للبحث الذي يشمل مشاركين بشريين من حيث تمثيل وإدراج وفهم الأشخاص الذين يتم دراستهم.

يشكك آخرون في المجتمع العلمي أيضًا في البيانات البحثية المُرَكَّبة بواسطة الذكاء الاصطناعي.

يقول “مات هودجكنسون”، عضو مجلس في لجنة أخلاقيات النشر، وهي منظمة غير ربحية مقرها المملكة المتحدة تعزز الممارسات الأخلاقية في البحث الأكاديمي: “أنا حذر جدًا من فكرة أنه يمكنك استخدام الذكاء الاصطناعي التوليدي، أو أي نوع آخر من الأدوات الآلية لاستبدال المشاركين البشر أو أي نوع آخر من البيانات الواقعية”.

يلاحظ “هودجكنسون” أن نماذج اللغة بالذكاء الاصطناعي قد لا تكون بشرية كما نتصورها. أظهر تحليل حديث، لم تتم مراجعته بعد من قِبَل الأقران، دراسة كيفية إشارة العلماء إلى الذكاء الاصطناعي في 655 ألف مقالة أكاديمية، ووجد أن مستوى التشخيص بصفات بشرية قد زاد بنسبة 50 في المئة بين عامي 2007 و2023. لكن في الواقع، لا تكون برامج الدردشة بالذكاء الاصطناعي شبيهة بالبشر إلى هذا الحد؛ غالبًا ما يُطلق على هذه النماذج وصف “الببغاوات العشوائية” التي تقوم ببساطة بإعادة خلط وتكرار ما تعلمته. إنها تفتقر إلى أي عواطف أو تجارب أو فهم حقيقي لما يُطلب منها.

يقول “أندرو هوندت”، الذي يدرس التعلم العميق والروبوتات في جامعة كارنيجي ميلون، إن البيانات المولدة بواسطة الذكاء الاصطناعي يمكن أن تكون مكملاً مفيدًا للبيانات المجمعة من البشر في بعض الحالات. ويضيف: “قد تكون مفيدة لبعض الاختبارات التمهيدية الأساسية” لسؤال بحثي، مع وضع البيانات الاصطناعية جانباً لصالح البيانات البشرية عند بدء دراسة حقيقية.

لكن “هوندت” يقول إن استخدام الذكاء الاصطناعي لتركيب استجابات البشر على الأرجح لن يقدم الكثير من الفوائد للدراسات العلمية الاجتماعية ولو جزئيًا؛ لأن الغرض من مثل هذه الأبحاث هو فهم تعقيدات البشر الفعليين الفريدة. يقول إنه بطبيعتها، لا يمكن للبيانات المركبة بواسطة الذكاء الاصطناعي أن تكشف عن هذه التعقيدات. في الواقع، يجري تدريب نماذج الذكاء الاصطناعي التوليدية على أحجام هائلة من البيانات التي يتم تجميعها وتحليلها ومتوسطها لتخفيف مثل هذه التناقضات.

وفقًا لـ”إليانور دريج”، الباحثة في أخلاقيات الذكاء الاصطناعي في جامعة كامبريدج، تقول إن نماذج الذكاء الاصطناعي توفر مجموعة من الاستجابات المختلفة التي يمكن اعتبارها في الأساس كأنها مجموعة من الأفراد المجتمعين في شخص واحد. وتلاحظ أنها ليست لديها تجربة حية، وإنما هي مجرد جامعة للتجارب. ويمكن أن يعكس هذا التجميع لتجربة الإنسان التحيزات العميقة الموجودة في المجتمع. على سبيل المثال، غالبًا ما تعزز أنظمة الذكاء الاصطناعي المولدة للصور والنصوص النماذج النمطية العرقية والجنسية.

وأشارت بعض المقترحات الأخيرة التي تم تحديدها في المراجعة الجديدة أيضًا، إلى أن البيانات التي يولدها الذكاء الاصطناعي يمكن أن تكون مفيدة لدراسة الموضوعات الحساسة مثل الانتحار. نظريًا، يمكن أن يتجنب ذلك تعريض الأشخاص المعرضين للخطر لتجارب قد تخاطر بإثارة أفكار انتحارية. ولكن في العديد من الطرق، تؤدي هشاشة هذه المجموعات إلى تضخيم خطر دراسة تجاربهم باستخدام استجابات الذكاء الاصطناعي. قد يوفر نموذج اللغة الكبير الذي يؤدي دور الإنسان، استجابات لا تمثل كيف يفكر البشر الحقيقيون في المجموعة المدروسة. هذا قد يؤدي إلى علاجات وسياسات مستقبلية بشكل خاطئ. يقول “هودجكنسون”: “أعتقد أن هذا خطير للغاية”. “المشكلة الأساسية هي أن نموذج اللغة الكبير أو أي أداة آلية أخرى ببساطة ليست إنسانًا”.

يمكن أن يؤثر الذكاء الاصطناعي التوليدي على جودة بيانات الدراسات البشرية، حتى إذا لم يتم دمجها مباشرة من قبل الباحثين في أعمالهم. فعادةً ما تعتمد العديد من الدراسات على خدمات مثل ميكانيكي تورك التابعة لأمازون أو منصات العمل المؤقتة المشابهة لجمع بيانات البحث البشرية. وقد لوحظ بالفعل أن الاستجابات المشتقة من ميكانيكي تورك غالبًا ما تكون غير مرضية نسبيًا، حيث يقوم المشاركون بإكمال المهام التجريبية بأسرع ما يمكن لكسب المال بدلاً من التركيز العميق على تلك المهام. وتشير بعض الأدلة المبكرة إلى أن عمال ميكانيكي تورك يستخدمون بالفعل الذكاء الاصطناعي التوليدي لزيادة إنتاجيتهم. في ورقة بحثية لم تتم مراجعتها بعد، طلب الباحثون من عمال المنصة استكمال مهمة واستنتجوا أن نسبة تتراوح بين 33 و46 في المئة من المشاركين استخدموا نموذج لغة توليدي كبير لإنتاج استجاباتهم.

نظرًا لعدم وجود سابقة علمية لاستخدام البيانات التي يولدها الذكاء الاصطناعي بدلاً من البيانات البشرية، فإن القيام بذلك بمسؤولية سيتطلب تفكيرًا دقيقًا وتعاونًا بين المجالات المختلفة. تقول “دريج”: “هذا يعني التفكير مع علماء النفس – ويعني التفكير مع الخبراء – بدلاً من مجرد السماح لمجموعة من العلماء بالتجريب بأنفسهم”. “أعتقد أنه يجب أن تكون هناك حواجز حماية حول كيفية إنشاء هذا النوع من البيانات واستخدامها. ويبدو أنه لا توجد أي حواجز”.

في الوضع المثالي، يجب أن تشمل تلك الحواجز الوقائية توجيهات دولية يضعها الهيئات الأكاديمية حول ما هو مقبول وما ليس مقبولًا من استخدام نماذج اللغة الكبيرة في البحث، أو إرشادات من المنظمات فوق الوطنية حول كيفية التعامل مع النتائج التي تم الوصول إليها من استخدام البيانات المدعومة بالذكاء الاصطناعي.

يقول “هودجكنسون”: “إذا تم استخدام برامج الدردشة الآلية بشكل عشوائي، فقد يؤدي ذلك إلى تقويض جودة البحث العلمي بشكل كبير، وإلى تغييرات في السياسات والأنظمة استنادًا إلى بيانات خاطئة”. “الخط الأساسي المطلق، هو أن على الباحثين التحقق من الأمور بشكل صحيح، وعدم الانخداع بالبيانات المحاكاة، أو التفكير بطريقة ما أنها بديل للبيانات الحقيقية”.

المصدر: Scientific American