هل يستطيع الذكاء الاصطناعي التفوق على الأطباء في قراءة الأشعة؟.. نتائج الدراسة تُحبط التوقعات

AI بالعربي – متابعات

في دراسة حديثة، أظهرت النتائج أن الذكاء الاصطناعي لا يزال بعيدًا عن القدرة على منافسة أطباء الأشعة في دقة قراءة الصور الطبية، رغم التقدّم الكبير في قدراته التحليلية.

الهدف من الدراسة

ركزت الدراسة على اختبار أداء النماذج العامة للذكاء الاصطناعي مثل GPT-5 وGemini وGrok وClaude وo3 في تفسير صور الأشعة المعقدة. وقارنت النتائج مع أداء أطباء أشعة معتمدين ومتدربين، مع التركيز على دقة التشخيص وأنماط الأخطاء.

تفوّق الأطباء البشر على الذكاء الاصطناعي

حقّق أطباء الأشعة نسبة دقة بلغت 83%، وهي الأعلى بين جميع الفئات. بينما سجّل المتدربون نسبة 45%. في المقابل، جاءت أفضل نتيجة لنموذج GPT-5 بنسبة 30%. وحققت النماذج الأخرى نتائج أقل: Gemini بنسبة 29%، وo3 بنسبة 23%، وGrok بنسبة 12%، وClaude بنسبة 1%. وتشير هذه الأرقام إلى فجوة كبيرة بين أداء البشر والأنظمة الذكية.

الأداء حسب نوع الفحص

أظهرت الدراسة أن أداء الذكاء الاصطناعي يختلف باختلاف نوع الأشعة. ففي فحوص MRI بلغت دقة الأطباء 98% مقابل 45% لـ GPT-5. أما في فحوص CT فقد حقق الأطباء 79% مقابل 22% للنموذج نفسه. وفي الأشعة السينية X-ray وصلت دقة الأطباء إلى 89%، بينما لم تتجاوز دقة GPT-5 نسبة 31%.

التفكير الطويل لا يزيد الدقة

اختبرت الدراسة أداء GPT-5 في وضعي التفكير السريع والبطيء عبر واجهة البرمجة API. وتبيّن أن دقته بقيت شبه ثابتة بين 25% و26% في كلا الوضعين. إلا أن وقت الاستجابة ارتفع من 10 ثوانٍ إلى 66 ثانية في وضع التفكير الطويل، ما يعني أن زيادة زمن التحليل لا تؤدي إلى نتائج أفضل.

الاتساق في الأداء بين النماذج

سجّل كل من GPT-5 وo3 أداءً متماسكًا نسبيًا في النتائج، بينما أظهر Gemini وGrok أداءً متوسطًا، وجاء أداء Claude ضعيفًا جدًا. يشير ذلك إلى تباين واضح في جودة المعالجة بين النماذج.

تصنيف جديد لأنماط الأخطاء

ابتكرت الدراسة تصنيفًا جديدًا لأخطاء الذكاء الاصطناعي في قراءة الصور، يشمل ثلاثة أنواع رئيسية:

الأول إدراكي ويتضمن فشل النموذج في اكتشاف أمراض ظاهرة أو رؤية أمراض غير موجودة أو تحديد موقع التشخيص بشكل خاطئ.

الثاني تفسيري ويتعلق بسوء فهم العلامات أو التسرّع في الوصول إلى التشخيص.

أما الثالث تواصلي فيظهر عند وجود تناقض بين الوصف والنتيجة النهائية.

كما رصد الباحثون وجود انحيازات معرفية مثل التثبيت والانتباه الانتقائي والتوفر الذهني، وهي مشابهة لما يقع فيه الإنسان أحيانًا، لكنها أكثر حدة لدى النماذج.

الخلاصة والتحذير

خلصت الدراسة إلى أن الفجوة بين البشر والذكاء الاصطناعي لا تزال واسعة جدًا. وأكدت أنه لا يمكن الاعتماد على هذه النماذج بشكل مستقل في التشخيص الطبي. حتى أفضلها، وهو GPT-5، لا يقترب من مستوى الأطباء المعتمدين. لذلك، شددت الدراسة على ضرورة الإبقاء على الإشراف البشري الكامل في الرعاية الصحية عند استخدام الذكاء الاصطناعي.