بيانات الويب العامة تُغيِّر مستقبل الذكاء الاصطناعي

AI بالعربي – خاص

يستكشف “عمري أورجاد”، كبير مسؤولي العملاء في “Bright Data”، فوائد الاستعانة بمصادر خارجية لمجموعات بيانات الويب العامة للشركات التي تستخدم أدوات الذكاء الاصطناعي.

مع عدم اليقين الاقتصادي الذي يلوح في الأفُق، ستستمر أدوات الذكاء الاصطناعي في تحسين سير العمل، وتعزيز الإنتاجية والكفاءة. وكجزء من ذلك، سوف تتطلع الشركات إلى الاستغناء عن الاعتماد على علماء البيانات كوسطاء من خلال اعتماد تقنيات تتضمن قابلية توسيع منخفضة للشفرة وتجارب مستخدم بديهية، مما يُقلل من مستوى الأشخاص الذين ليس لديهم خلفية تقنية.

من روبوتات المحادثة القائمة على الذكاء الاصطناعي إلى الأدوات التلقائية التي تحلل سلوك المستخدم وتعظيم المشاركة، تحدِّد توقعات الأعمال لعام 2023 الذكاء الاصطناعي كضرورة مؤسسية في بيئة الأعمال الحالية.

جودة البيانات أساس لدقة الخوارزميات

ومع ذلك، فإن أنظمة الذكاء الاصطناعي جيدة فقط مثل المعلومات التي يتم تغذيتها. وخلص باحثُو DeepMind إلى أنه من أجل تعظيم أداء نماذج الذكاء الاصطناعي، يجب تدريبها على مجموعات بيانات أكبر. إضافة إلى ذلك، تؤدي جودة وتنوع مجموعة البيانات المُستخدمة لتدريب نموذج الذكاء الاصطناعي، دورًا مهمًا في أداء ودقة هذه الخوارزميات. ويجب أن تتمتع نماذج الذكاء الاصطناعي بإمكانية الوصول إلى البيانات المُحدثة والمُحدثة بشكل مُتكرر، وإلا فقد لا يكون النموذج مناسبًا بحلول وقت نشر النموذج.

من أجل تدريب نماذج الذكاء الاصطناعي الناشئة على مجموعات بيانات أكبر، يجب أن تتمتع المؤسسات بإمكانية الوصول إلى أكبر قاعدة بيانات مُحدثة بالعالم في تاريخ البشرية، وهي الإنترنت؛ لأن بيانات الويب العامة ضرورية لنماذج الذكاء الاصطناعي؛ لكي يتم تدريبها على مجموعات متنوعة من معلومات وأمثلة يتم تحديثها باستمرار. على سبيل المثال، ينبع نجاح برنامج ChatGPT الخاص بـOpenAI من تزويده بمجموعة كبيرة من البيانات العامة للنصوص المأخوذة من مواقع الويب والمدونات والمقالات والمنتديات على الإنترنت.

ويمكن للشركات محاولة استخراج بيانات الويب العامة بشكل مستقل، إلا أنها تستغرق وقتًا طويلاً وتتطلب قدرًا كبيرًا من الموارد. في المتوسط، تنفق الشركات 78% من ميزانيات جمع البيانات على متخصصي البيانات الذين يقضون معظم وقتهم في تطوير البنية اللازمة. ثم إن البيانات التي تم جمعها تحتاج إلى الهيكلة ثم التحليل، إذ يمكن أن تؤثر البيانات المفقودة أو غير الدقيقة على أداء ودقة نماذج الذكاء الاصطناعي.

وجدت دراسة على Refinitiv أن 66% من الشركات تدعي أن البيانات ذات الجودة الرديئة تضعف قدرتها على نشر واعتماد الذكاء الاصطناعي بشكل فعال، وأنها تمثل العائق الرئيسي أمامها لإنشاء أدوات ذكاء اصطناعي عالية الجودة.

كاشطات آلية تعيد مجموعات البيانات المخصصة

مع التطورات الجديدة في تكنولوجيا جمع بيانات الويب التي تبسط جمع بيانات الويب العامة وهيكلتها، يمكن لأي شركة – كبيرة كانت أم صغيرة – الحصول على بيانات مؤهلة لتدريب أجهزتها دون الحاجة إلى عملية بيانات كاملة في المكان.

تختلف الأدوات المتاحة من أدوات برمجية منخفضة الكود أو من دون رمز تسمح للشركات بإنشاء كاشطات آلية تعيد مجموعات البيانات المخصصة، التي يمكن للشركات بعد ذلك توصيلها مباشرة بالذكاء الاصطناعي عبر واجهة برمجة التطبيقات لتغذية خوارزمياتها باستمرار بتدفقات ثابتة من بيانات الويب العامة.

يقوم موفرو بيانات الويب أيضًا ببناء مجموعات البيانات التي تم جمعها وتنظيفها وتطويعها للتنفيذ الفوري، وهي عملية تستهلك الكثير من الموارد وتستغرق وقتًا طويلاً. وبدلاً من ذلك، يمكن للشركات شراء مجموعات البيانات المجمعة سلفًا عند الطلب، والتي تحتوي على كمية هائلة من بيانات الويب العامة، ويمكن أن تكون مثالية لتدريب نماذج الذكاء الاصطناعي. ويمكن للشركات الحصول على مجموعات البيانات هذه مرة واحدة وتحديثها على فترات دورية كطريقة فعالة من حيث التكلفة والسرعة. وكذلك الحصول على كميات هائلة من بيانات الويب العامة التي يتم تحديثها باستمرار من مصادر مختلفة ومتعددة. على سبيل المثال، يمكن أن تساعد مجموعة البيانات المحدثة التي يتم سحبها من العديد من مجالس العمل عبر الإنترنت، أصحاب العمل في العثور على مرشحين لأهم أدوارهم وإزالة التحيز في عملية التوظيف.

البيانات الأكثر شمولاً ترفع معدل الأداء

سواء أكان الذكاء الاصطناعي سيعمل على أتمتة المهام المستهلكة للوقت، أم سيحسن سرعة العمل ودقته، أم سيتوقع المشكلات المحتملة؛ يمكن لكل شركة استخدام الذكاء الاصطناعي أكثر مما تستخدمه اليوم. لكن: ما مدى جودة أداء هذه الأدوات؟ هذا يرجع إلى جودة البيانات التي تم تدريبها عليها؛ فكلما كانت البيانات أكثر شمولاً وموثوقية، كان معدل الأداء أفضل، ومن ثَمَّ زادت قيمة النتائج.