Facebook X Instagram TikTok

من الأفضل في فهم التفاعلات الاجتماعية؟ دراسة تقارن بين البشر والذكاء الاصطناعي

0

من الأفضل في فهم التفاعلات الاجتماعية؟ دراسة تقارن بين البشر والذكاء الاصطناعي

AI بالعربي – متابعات

كشفت دراسة حديثة أجراها باحثون في جامعة جونز هوبكنز أن البشر يتفوّقون على نماذج الذكاء الاصطناعي الحالية في وصف وتفسير التفاعلات الاجتماعية بدقّة في المشاهد الديناميكية. تُعدّ هذه القدرة أساسية لتقنيات مثل المركبات ذاتية القيادة والروبوتات المساعدة، التي تعتمد بشكل كبير على الذكاء الاصطناعي للتنقّل بأمان في بيئات العالم الحقيقي.

يُسلّط البحث الضوء على أنَّ أنظمة الذكاء الاصطناعي الحالية تُواجه صعوبةً في فهم الديناميكيات الاجتماعية الدقيقة والإشارات السياقية الضرورية للتفاعل الفعّال مع الناس. علاوةً على ذلك، تُشير النتائج إلى أنَّ هذا القيد قد ينبع أساسًا من البنية والبنية التحتية الأساسية لنماذج الذكاء الاصطناعي الحالية.

على سبيل المثال، يحتاج الذكاء الاصطناعي المُستخدم في السيارات ذاتية القيادة إلى التعرّف على نوايا وأهداف وأفعال السائقين والمشاة. يُفترض أن يعرف اتجاه سير أحد المشاة، أو ما إذا كان شخصان يتحدّثان أم على وشك عبور الشارع، كما قالت ليلى إيزيك، الباحثة الرئيسية، والأستاذة المساعدة في العلوم المعرفية بجامعة جونز هوبكنز. وأضافت: “في كلّ مرة نريد فيها تفاعل الذكاء الاصطناعي مع البشر، يجب أن يكون قادرًا على التعرّف على أفعالهم. أعتقد أن هذا يُسلّط الضوء على حقيقة أن هذه الأنظمة لا تستطيع القيام بذلك حاليًا”.

قدّمت كاثي جارسيا، طالبة الدكتوراه التي تعمل في مختبر إيزيك في وقت البحث والمؤلفة المشاركة الأولى، نتائج البحث مؤخرًا في المؤتمر الدولي لتمثيلات التعلّم في 24 أبريل.

مقارنة الذكاء الاصطناعي والإدراك البشري

لتحديد مدى تطابق نماذج الذكاء الاصطناعي مع الإدراك البشري، طلب الباحثون من المشاركين مشاهدة مقاطع فيديو مدّتها ثلاث ثوانٍ وتقييم السمات المهمّة لفهم التفاعلات الاجتماعية على مقياس من واحد إلى خمسة. تضمّنت المقاطع أشخاصًا يتفاعلون مع بعضهم البعض، أو يؤدّون أنشطة جنبًا إلى جنب، أو يمارسون أنشطة مستقلّة بمفردهم.

ثم طلب الباحثون من أكثر من 350 نموذجًا للذكاء الاصطناعي، بما في ذلك اللغة والفيديو والصور، التنبؤ بكيفية تقييم البشر للفيديوهات وكيفية استجابة أدمغتهم للمشاهدة. بالنسبة لنماذج اللغة الكبيرة، طلب الباحثون من الذكاء الاصطناعي تقييم التعليقات القصيرة المكتوبة بشريًا.

اتّفق المشاركون، في الغالب، على جميع الأسئلة؛ بينما لم تكن نماذج الذكاء الاصطناعي، بغضّ النظر عن حجمها أو البيانات التي دُرِّبت عليها، كذلك. لم تتمكّن نماذج الفيديو من وصف ما يفعله الأشخاص في الفيديوهات بدقّة. حتى نماذج الصور التي حُوِّلت إلى سلسلة من اللقطات الثابتة، لم تستطع التنبؤ بدقّة بما إذا كان الأشخاص يتواصلون. كانت نماذج اللغة أفضل في التنبؤ بالسلوك البشري، بينما كانت نماذج الفيديو أفضل في التنبؤ بالنشاط العصبي في الدماغ.

ويعتقد الباحثون أن السبب في ذلك هو أن شبكات الذكاء الاصطناعي مستوحاة من البنية التحتية للجزء من الدماغ الذي يعالج الصور الثابتة، وهو مختلف عن منطقة الدماغ التي تعالج المشاهد الاجتماعية الديناميكية.

قال إيزيك: “هناك الكثير من الفروق الدقيقة، لكن الخلاصة هي أن أيًا من نماذج الذكاء الاصطناعي لا يستطيع مطابقة استجابات الدماغ والسلوك البشري للمشاهد بشكل عام، كما هو الحال مع المشاهد الثابتة”. وأضاف: “أعتقد أن هناك جانبًا جوهريًا في طريقة معالجة البشر للمشاهد، وهو ما تغفله هذه النماذج”.

اترك رد

Your email address will not be published.