عيب قاتل ببرامج الذكاء الاصطناعي يدفعها لـ”تسميم نفسها”

AI بالعربي – متابعات

فاجأت النتائج التي توصلت إليها ورقة بحثية جديدة بشأن “الذكاء الاصطناعي التوليدي” P القائمين على تطوير هذه التكنولوجيا؛ حيث تبيّن أن نماذج اللغة الكبيرة التي يشغلها الذكاء الاصطناعي التوليدي مثل “ChatGPT” و”Gemini”، والتي تتغذى على البيانات، تواجه عيبًا قاتلًا يتمثل في قدرة هذه النماذج على تسميم نفسها بنفسها.

ففي الوقت الذي يرى فيه أركان صناعة التكنولوجيا أن تدريب أنظمة الذكاء الاصطناعي على كميات كبيرة من البيانات المنتشرة عبر الإنترنت، سيسمح لهذه الأنظمة بالتفوق على البشر في مرحلة لاحقة؛ حذّر علماء من جامعة أكسفورد وجامعات أخرى، عبر ورقة بحثية تم نشرها في العدد الأخير من مجلة العلوم المرموقة “Nature”، من أن استخدام “البيانات الاصطناعية” لتدريب الذكاء الاصطناعي التوليدي، يمكن أن يؤدي إلى تدهور دقة هذه الأنظمة إلى حدّ يجعلها عديمة الفائدة.

وبحسب تقرير نشرته “بلومبرغ” نقلته “سكاي نيوز عربية”: فقد اكتشف الباحثون أنه عندما يتم تدريب أنظمة الذكاء الاصطناعي، باستخدام بيانات تم إنشاؤها بواسطة الذكاء الاصطناعي، فإن أداء هذه الأنظمة يتدهور بشكل ملحوظ، وهي الظاهرة التي يطلق عليها الخبراء اسم “انهيار النموذج”.

وتعتمد برامج الدردشة التي تعمل بالذكاء الاصطناعي مثل ChatGPT على نماذج لغوية ضخمة، تم تدريبها على تريليونات البيانات التي تم إنشاؤها من قبل الإنسان، وقد تم الاستحصال على هذه البيانات من صفحات الويب والمقالات، والتعليقات المنتشرة على شبكة الإنترنت.

وبفضل هذه الكميات الضخمة من البيانات، تمكّنت شركات “OpenAI” و”ألفابت” و”ميتا” وغيرها من الشركات، من تصميم برامج يمكنها تقديم إجابات واضحة على استفسارات المستخدمين.

ولكن، ولإشباع شهية برامج الذكاء الاصطناعي التوليدي التي لا تشبع من التغذية بالبيانات، حاول الباحثون بشكل متزايد في الآونة الأخيرة تزويد هذه البرامج ببيانات “اصطناعية”، أي من صنع الذكاء الاصطناعي نفسه؛ ليتبين للمراقبين أن هذه البرامج تنهار وتنتج معلومات مشوهة عندما يتم تدريبها على محتوى لم يصنعه البشر.

وقد شبه الباحثون هذه الظاهرة بتسميم الذكاء الاصطناعي لنفسه.

في الورقة البحثية الجديدة وجد الباحثون من أكسفورد وكامبريدج وجامعات أخرى، أن برامج الذكاء الاصطناعي المدربة بمحتوى تم إنشاؤه بواسطة الذكاء الاصطناعي تصدر نتائج غير منطقية، لتتفاقم هذه المشكلة في كل مرة يتمّ فيها تدريب هذه البرامج على بيانات اصطناعية؛ مما يجعل النتائج التي تزود بها المستخدمين بعيدة كل البعد عن الواقع وأقرب إلى الهراء.

وبحسب المؤلف الرئيسي للورقة البحثية “إيليا شوميلوف” وفريقه: فإن الأمر يصبح أسوأ في كل مرة تتم فيها تغذية برامج الذكاء الاصطناعي ببيانات اصطناعية، لينتهي الأمر ببيانات ملوثة وبرامج لا تدرك الواقع.

وفي أحد الأمثلة على ما حصل: أظهرت الورقة البحثية أن برنامجًا لغويًّا للذكاء الاصطناعي تم تدريبه عدة مرات على بيانات تم إنشاؤها بواسطة الذكاء الاصطناعي، قام بتحويل استفسار عن الهندسة المعمارية البريطانية التاريخية إلى مناقشة غير مفهومة عن الأرانب البرية.

وتشير الورقة البحثية إلى أن برامج الذكاء الاصطناعي المستقبلية، سيتم تدريبها حتمًا على البيانات التي أنتجها أسلافها؛ حيث تنتشر الكتابات والصور التي تم استحداثها بواسطة الذكاء الاصطناعي عبر الإنترنت بشكل كبير؛ ولذلك فإن مشكلة “انهيار النموذج” يجب أن تؤخذ على محمل الجد، إذا أراد العالم الحفاظ على فوائد برامج الذكاء الاصطناعي، ومنع عرقلة تطورها.

وفقًا للباحثين: من الضروري لمطوري الذكاء الاصطناعي تأمين وصول برامجهم إلى البيانات عالية الجودة من صنع الإنسان، والتي لم يتم تلويثها بمحتوى الذكاء الاصطناعي، فرغم أن القيام بهذا الأمر يعد مهمة مكلفة، إلا أنه وحتى الآن لا توجد طريقة أخرى للحفاظ على دقة برامج الذكاء الاصطناعي.

ويقترح الباحثون أن يعمل مطورو برامج الذكاء الاصطناعي على التنسيق فيما بينهم من أجل فهم مصدر البيانات التي يتهافتون لجمعها عبر الإنترنت.