AI بالعربي – متابعات
كشفت شركة جوجل ديب مايند، التابعة لشركة جوجل، عن مجموعة معايير جديدة تحت اسم “FACTS Benchmark Suite”، تهدف إلى قياس مدى موثوقية نماذج الذكاء الاصطناعي في تقديم إجابات دقيقة قائمة على الحقائق، في خطوة تسلط الضوء على واحدة من أكثر القضايا حساسية في تطور هذه التقنيات.
اختبارات دقيقة في أربعة مجالات رئيسية
وتركّز معايير “FACTS” على اختبار نماذج الذكاء الاصطناعي عبر أربعة مجالات أساسية، تشمل قدرتها على الإجابة عن الأسئلة المعلوماتية اعتمادًا على المعرفة الداخلية، واستخدام البحث عبر الإنترنت بفعالية، وإثبات صحة الإجابات من خلال وثائق طويلة ومعقدة، إضافة إلى تفسير الصور بدقة.
وتعد هذه المجالات من أكثر الاستخدامات شيوعًا لنماذج الذكاء الاصطناعي في التطبيقات العملية، سواء في العمل أو البحث أو الخدمات الرقمية.
تفوق نسبي لنموذج جوجل
ووفقًا لتقرير نشره موقع “بيزنس إنسايدر”، حقق نموذج “جيميني 3 برو” من جوجل أعلى نتيجة بين النماذج المختبرة، بدقة بلغت 69 في المائة، في حين سجلت النماذج الرائدة الأخرى نسبًا أقل بكثير.
ورغم هذا التفوق النسبي، فإن النتيجة تعكس فجوة واضحة بين أداء النماذج الحالية والتوقعات البشرية من حيث الدقة والاعتماد على الحقائق.
تحذير للشركات والمؤسسات
ويرى التقرير أن هذه النتائج تحمل دلالة مهمة للشركات والمؤسسات التي تراهن على الذكاء الاصطناعي في عملياتها اليومية، فبينما تتميز النماذج بالسرعة والطلاقة في توليد النصوص، لا تزال موثوقيتها في تقديم معلومات واقعية دقيقة دون أخطاء أقل من المستوى المطلوب.
وتتفاقم هذه المشكلة في المهام التي تتطلب معرفة متخصصة، أو تفكيرًا معقدًا، أو دعم الإجابات بمصادر موثوقة، حيث قد يؤدي أي خطأ بسيط في الوقائع إلى عواقب كبيرة.
مخاطر حقيقية في قطاعات حساسة
وأشار التقرير إلى أن الأخطاء الواقعية التي تنتجها نماذج الذكاء الاصطناعي قد تكون خطيرة بشكل خاص في قطاعات مثل المالية، والرعاية الصحية، والقانون، حيث تعتمد القرارات على دقة المعلومات.
وضرب مثالًا بحادثة فصل أحد الموظفين بعد تقديم مستند قانوني احتوى على قضايا وهمية اختلقها “ChatGPT”، عقب استخدام محامٍ لروبوت الدردشة في إعداد الملف، ما أبرز المخاطر العملية للاعتماد غير المنضبط على هذه الأدوات.
خارطة طريق للتطوير لا ضمان للدقة
وتعد معايير “FACTS” في نظر غوغل تحذيرًا بقدر ما هي خارطة إرشادية، إذ تهدف الشركة من خلالها إلى تحديد نقاط الضعف في النماذج وفهم أسباب حدوث الأخطاء، بما يساعد على تسريع وتيرة التطوير وتحسين الموثوقية مستقبلًا.
ومع ذلك، يخلص التقرير إلى حقيقة أساسية مفادها أن نماذج الذكاء الاصطناعي تتحسن باستمرار، لكنها لا تزال تخطئ في نحو ثلث الحالات، ما يؤكد أن الاعتماد الكامل عليها دون رقابة بشرية لا يزال محفوفًا بالمخاطر في الوقت الراهن.








