دراسة حديثة: الذكاء الاصطناعي يفشل في التشخيص السريري المبكر

AI بالعربي – متابعات

كشفت دراسة حديثة أن نماذج الذكاء الاصطناعي التوليدي لا تزال غير مؤهلة للاستخدام الطبي السريري الآمن. وأكدت النتائج أن هذه النماذج تعاني ضعفًا واضحًا في التفكير المنطقي، رغم التطور السريع الذي شهدته في السنوات الأخيرة.

وأوضحت الدراسة أن أنظمة الذكاء الاصطناعي، مثل ChatGPT ونماذج أخرى، تحسنت دقتها عند تزويدها ببيانات سريرية كاملة. ومع ذلك، فشلت في تقديم تشخيص تفريقي دقيق في أكثر من 80% من الحالات. ويعد هذا النوع من التشخيص أساسًا في الممارسة الطبية اليومية.

وجاءت الدراسة من باحثين في مستشفى ماساتشوستس العام بريجهام في بوسطن. ويعد هذا المركز من أكبر أنظمة الرعاية الصحية في الولايات المتحدة. كما نشرت النتائج في مجلة “JAMA Network” التابعة للجمعية الطبية الأميركية.

وأكد الباحث “مارك سوتشي” أن النماذج الحالية لا تزال غير جاهزة للاستخدام السريري دون إشراف بشري. وأشار إلى أن هذه الأنظمة لا تستطيع محاكاة عملية التشخيص التفريقي، التي تعد جوهر التفكير الطبي.

ويعتمد التشخيص التفريقي على التمييز بين أمراض متشابهة في الأعراض. ويحتاج هذا الأسلوب إلى خبرة وتحليل دقيق. لذلك يوصف أحيانًا بأنه “فن الطب”.

وقام الفريق البحثي بتقييم أداء 21 نموذجًا مختلفًا. وشمل ذلك نماذج متقدمة مثل Claude وDeepSeek وGemini وGPT وGrok. واستخدم الباحثون أداة تحليل جديدة تحمل اسم “PrIME-LLM” لقياس الأداء.

وركز التقييم على عدة مراحل سريرية. شملت هذه المراحل وضع التشخيص الأولي، وطلب الفحوصات، وتحديد التشخيص النهائي، ثم وضع خطة العلاج. وأظهرت النتائج تباينًا واضحًا بين هذه المراحل.

وحققت النماذج نتائج جيدة عند الوصول إلى التشخيص النهائي. تراوحت الدقة بين 60% وأكثر من 90%. لكن الأداء تراجع بشكل كبير في المراحل الأولى. وظهر ضعف واضح في التعامل مع نقص المعلومات.

كما أظهرت النتائج أن النماذج تجد صعوبة في التعامل مع عدم اليقين. وغالبًا تعتمد على بيانات غير دقيقة من الإنترنت. وهذا يطرح تحديات خطيرة في البيئات الطبية الحساسة.

وأوضحت الباحثة “آريا راو” أن تقييم النماذج خطوة بخطوة يقدم فهمًا أعمق لقدراتها. وأضافت أن هذه النماذج تبدو قوية عند توفر كل البيانات. لكنها تفشل في المراحل المبكرة من التشخيص.

ولمحاكاة الواقع الطبي، قدم الباحثون البيانات للنماذج بشكل تدريجي. بدأوا بمعلومات أساسية مثل العمر والأعراض. ثم أضافوا نتائج الفحوصات والتحاليل لاحقًا. وكشف هذا الأسلوب نقاط الضعف بوضوح.

ورغم فشل النماذج في التشخيص التفريقي، واصلت العمل عند تزويدها بمعلومات إضافية. وهذا يعكس قدرتها على معالجة البيانات، لكنه لا يعوض ضعف التفكير السريري.

وتؤكد هذه النتائج أن الذكاء الاصطناعي لا يزال بعيدًا عن استبدال الأطباء. كما تبرز أهمية الإشراف البشري عند استخدام هذه التقنيات في المجال الطبي.

وفي ضوء هذه المعطيات، يرى الباحثون أن تطوير النماذج يجب أن يركز على تحسين الاستدلال المنطقي. ويعد ذلك خطوة ضرورية قبل اعتمادها في الاستخدامات السريرية الحساسة.