تدريب الذكاء الاصطناعي على بيانات من إنتاجه ينذر بانهياره

AI بالعربي – متابعات

إذا أُخضعت نماذج الذكاء الاصطناعي لتدريب متكرر باستخدام بيانات مُنتَجة أصلًا بهذه التقنية، فستبدأ بعرض محتويات متضاربة بصورة متزايدة، وهي مشكلة يتناولها عدد كبير من الدراسات العلمية.

النماذج القائمة على أدوات الذكاء الاصطناعي التوليدي، مثل برنامج “تشات جي بي تي”، التي تتيح إنتاج مختلف أنواع المحتوى بناءً على طلب بسيط بلغة يومية، تحتاج إلى التدريب من خلال كميات هائلة من البيانات.

ووفق ما ذكرته “وكالة الصحافة الفرنسية”، غالبًا ما يجري الحصول على هذه البيانات من شبكة الإنترنت التي تنتشر فيها كميات متزايدة من الصور والنصوص المُنتَجة بوساطة الذكاء الاصطناعي.

ويؤدي هذا الوضع، الذي يُوصف بعبارة “الالتهام الذاتي”؛ إذ يتغذّى الذكاء الاصطناعي على نفسه، إلى انهيار النماذج، فتصبح الأدوات مُنتِجة لمعلومات غير منطقية حتى تصل إلى نتائج لا معنى لها، على ما توصلت إليه مقالة نُشرت في مجلة “نيتشر” العلمية في نهاية يوليو .

ومع استخدام هذا النوع من البيانات، الذي يُطلق عليه اسم “بيانات اصطناعية”؛ لأنه مُنتَج بوساطة آلات، يقل غنى العينة التي تستمد منها نماذج الذكاء الاصطناعي معطياتها لتوفير إجاباتها.

فالوضع مشابه لإنشاء نسخة من صورة بتقنية المسح الضوئي ثم طباعتها. ومع تكرار النسخ والطباعة، ستفقد النتيجة جودتها حتى تصبح في النهاية غير مقروءة.

وباء “جنون البقر”

توصّل باحثون من جامعتي “رايس” و”ستانفورد” الأميركيتين إلى النتيجة نفسها، بعد دراسة نماذج الذكاء الاصطناعي التي تولّد الصور، مثل “ميدجورني”، و”دال – إي”، و”ستيبل ديفيوجن”.

وأظهر الباحثون أن الصور المُنتَجة أصبحت مليئة بعناصر غير متطابقة كلما أضافوا بيانات “مُنتَجة بوساطة الذكاء الاصطناعي” إلى النموذج، وشبّهوا هذه الظاهرة بمرض “جنون البقر”.

فهذا الوباء، الذي ظهر في المملكة المتحدة، يعود مصدره إلى استخدام العلف الحيواني الذي يجري الحصول عليه من أجزاء غير مأكولة من جيف أبقار وحيوانات تحمل الفيروس، لتغذية المواشي.

وتستخدم شركات الذكاء الاصطناعي في مرات كثيرة “بيانات اصطناعية” لتدريب برامجها، بسبب سهولة الحصول عليها ووفرتها وتكلفتها المنخفضة مقارنة ببيانات ابتكرها البشر.

تدريب الذكاء الاصطناعي باستخدام بيانات مُنتَجة أصلًا بهذه التقنية يؤدي إلى نتائج متضاربة.

وفي حديث إلى “وكالة الصحافة الفرنسية”، يقول الباحث المتخصص في التقنيات الجديدة لدى جامعة “موناش” في أستراليا جاثان سادوفسكي، إن “مصادر البيانات البشرية غير المستغلة وعالية الجودة والقابلة للقراءة آليًا تصير أكثر ندرة”.

ويقول ريتشارد بارانيوك، أحد معدي المقالة المنشورة في “نيتشر”، في بيان: “في حال لم يُراقب الوضع على مر أجيال عدة، فسنكون أمام نتيجة كارثية تتمثّل في متلازمة انهيار نماذج ستؤثر سلبًا في جودة البيانات على الإنترنت وتنوعها”.

وكما أن أزمة “جنون البقر” أثّرت بشكل كبير في مجال إنتاج اللحوم في تسعينات القرن العشرين، قد تهدد شبكة الإنترنت المليئة بمحتوى مُنتَج بوساطة الذكاء الاصطناعي ونماذج تحولت إلى “مجنونة”، مستقبل مجال الذكاء الاصطناعي، الذي يشهد ازدهارًا كبيرًا، وتبلغ قيمته مليارات الدولارات، حسب هؤلاء العلماء.

ويقول جاثان سادوفسكي إن “التساؤل الفعلي بالنسبة إلى الباحثين والشركات الذين يعملون على بناء أنظمة ذكاء اصطناعي هو في أي مرحلة يتجاوز استخدام البيانات الاصطناعية الحد اللازم؟”.

سيناريو غير واقعي كثيرًا

يرى بعض المتخصصين الآخرين أن المشكلة مبالغ فيها وليست حتمية تماماً.

وفي حديث إلى “وكالة الصحافة الفرنسية”، تؤكد شركتا “أنثروبك” و”هاغينغ فايس”، المتخصصتان في مجال الذكاء الاصطناعي، أنهما تستخدمان بيانات مُنتَجَة بوساطة الذكاء الاصطناعي.

ويقول أنتون لوزكوف، وهو مهندس متخصص في التعلم الآلي لدى شركة “هاغينغ فايس”، إن المقالة المنشورة في مجلة “نيتشر” توفّر رؤية نظرية مثيرة للاهتمام؛ لكن غير واقعية إلى حد كبير.

ويؤكد أن “تدريب النماذج على مجموعات عدة من البيانات الاصطناعية لا يتم في الواقع”.

ويقر لوزكوف بأن الخبراء في الذكاء الاصطناعي يشعرون بالإحباط من واقع الإنترنت، على غرار ما ينتاب الجميع.

ويضيف أن “جزءًا من الإنترنت هو مجرد قمامة”، مشيراً إلى أن شركته بدأت تبذل جهوداً كبيرة لتنظيف البيانات التي جُمعت، وحذفت أحياناً ما يصل إلى 90 في المائة منها.