الذكاء الاصطناعي يتطلب طاقة متزايدة فهل يتمكن البشر من تلبيتها؟

AI بالعربي – “متابعات”

أنهت شركة جوجل أواخر العام الماضي عمل باحثة بارزة في مجال أخلاقيات الذكاء الاصطناعي بعد أن أعربت عن إحباطها من الشركة لإجبارها على سحب بحثها، مع أنها درست مخاطر استخدام الذكاء الاصطناعي في معالجة اللغة، مثل النوع المستخدم في بحث جوجل ومنتجات تحليل النصوص الأخرى.

من المخاطر المشار إليها الزيادة في البصمة الكربونية الكبيرة لتطوير هذا النوع من تقنيات الذكاء الاصطناعي، فوفقًا للتقديرات إلى أن تدريب نموذج ذكاء اصطناعي يولد قدرًا من انبعاثات الكربون يوازي ما يتطلبه صنع خمس سيارات وقيادتها طوال مدة عمرها.

قالت الباحثة «أنا باحثة تدرس نماذج الذكاء الاصطناعي وتطوره، ونحن في هذا المجال نعلم بالارتفاع الهائل في الطاقة والتكاليف المالية التي تتطلبها أبحاث الذكاء الاصطناعي. لكن لماذا أصبحت نماذج الذكاء الاصطناعي متعطشة للطاقة، وكيف تختلف عن حوسبة مركز البيانات التقليدي؟»

تدريبات غير فعالة

وتشمل وظائف معالجة البيانات التقليدية تلك التي نراها في مراكز البيانات بث الفيديو والبريد الإلكتروني ووسائل التواصل الاجتماعي، أما الذكاء الاصطناعي فهو أثقل من الناحية الحوسبية لأنه يحتاج إلى قراءة كثير من البيانات حتى يتعلم كيفية فهمها وكي يتلقى تدريبه بفاعلية.

وهذا التدريب غير فعال مقارنة بكيفية تعلم الناس. حيث يستخدم الذكاء الاصطناعي الحديث شبكات عصبية اصطناعية، وهي حسابات رياضية تحاكي الخلايا العصبية في الدماغ البشري، ولقوة اتصال كل خلية عصبية بجارتها مقياس للشبكة يسمى الوزن. ولمعرفة كيفية فهم اللغة، تبدأ الشبكة بأوزان عشوائية وتعمل على ضبطها حتى تتوافق المخرجات مع الإجابة الصحيحة.

وإحدى الطرائق الشائعة لتدريب شبكة لغوية تزويدها بالكثير من النصوص من مواقع الويب، مثل ويكيبيديا ومنصات الأخبار مع إخفاء بعض الكلمات، وسؤالها تخمين الكلمات المحجوبة. مثل «كلبي لطيف» مع إخفاء كلمة «لطيف» في البداية سيخطئ النموذج في تخمينها جميعًا، ولكن بعد عدة جولات من التعديل تبدأ أوزان الاتصال في التغيير والتقاط أنماط البيانات لتصبح الشبكة دقيقة في اختيار المقترح النهائي.

استخدم أحد نماذج الذكاء الاصطناعي الحديثة الذي أطلق عليه مشفر التمثيلات ثنائية الاتجاه من المحولات أو المسمى اختصارًا ببيرت 3.3 مليار كلمة من الكتب الإنجليزية ومقالات ويكيبيديا. وقرأ بيرت أثناء التدريب مجموعة البيانات 40 مرة وليس دفعة واحدة. وبالمقارنة يسمع الطفل العادي الذي يتعلم التحدث 45 مليون كلمة في سن الخامسة، أي أقل من ذلك بمقدار 3000 مرة مقارنة بالمشفر بيرت.

التوصل للبناء اللغوي الصحيح

وتزداد تكلفة تشغيل هذه النماذج اللغوية لأن عملية التدريب هذه تحدث عدة مرات خلال مسار التطوير. فالباحثون يريدون العثور على أفضل بنية للشبكة، مع حساب عدد الخلايا العصبية المطلوبة، وعدد الوصلات بينها، وقياس مدى سرعة تغير المعلمات أثناء التعلم، وما إلى ذلك. وكلما ازداد عدد مجموعات البيانات التي يختبرونها، كانت فرصة تحقيق الشبكة لدقة عالية أفضل. وعلى العكس من ذلك لا تحتاج العقول البشرية إلى إيجاد البناء اللغوي المثالي فهي ذات بنية مسبقة الصنع يصقلها التعلم.

تتنافس الشركات والأكاديميون في مجال الذكاء الاصطناعي على تحسين الإتقان. فتحقيق تحسن بنسبة 1% فقط في الدقة في المهام الصعبة مثل الترجمة الآلية يعد أمرًا مهمًا، ويستقطب اهتمامًا أعلى ومنتجات أفضل. لكن لتحقيق تحسّن بنسبة 1% يضطر باحث واحد إلى تدريب النموذج آلاف المرات، وكل مرة بهيكل مختلف إلى أن يعثر على أفضل نموذج للبناء اللغوي.

وقدر الباحثون في جامعة ماساتشوستس أمهيرست تكلفة الطاقة لتطوير نماذج لغة الذكاء الاصطناعي من خلال قياس استهلاك طاقة الأجهزة التي تستخدم في المعتاد أثناء التدريب. وتوصلوا إلى أن المرة الواحدة لتدريب بيرت تخلف بصمة كربونية تماثل تلك التي يتسبب بها مسافر يطير في رحلة ذهابًا وإيابًا بين نيويورك وسان فرانسيسكو. ومن خلال البحث باستخدام هياكل مختلفة أو بتدريب الخوارزمية عدة مرات على البيانات بأعداد مختلفة قليلاً من الخلايا العصبية والمقاييس والمعلمات الأخرى، صارت التكلفة تعادل 315 راكبًا أو طائرة كاملة.

أكبر وأكثر استهلاكًا للطاقة

وأحجام نماذج الذكاء الاصطناعي أيضًا أكبر بكثير مما يجب أن تكون عليه وهي في تزايد كل عام. ويوجد نموذج تعلم لغوي أحدث مشابه لـبيرت، يسمى جي بي تي -2 يحتوي على 1.5 مليار وزن في شبكته. وأحدث ضجة العام الماضي بسبب دقته العالية، وهو يحتوي على 175 مليار وزن.

واكتشف الباحثون أن امتلاك شبكات أكبر يؤدي إلى دقة أفضل حتى إن كان مردود الإفادة من الشبكة ضئيلاً. حيث يحدث شيء مشابه في أدمغة الأطفال عندما تُضاف الاتصالات العصبية أولاً ثم تنقص، لكن الدماغ البيولوجي أكثر كفاءة في استخدام الطاقة بالمقارنة بأجهزة الحاسوب.

وتتدرب نماذج الذكاء الاصطناعي على أجهزة متخصصة مثل وحدات معالجات الرسومات التي تستهلك طاقة أكبر من وحدات المعالجة المركزية التقليدية. فإذا كان لديك حاسوب للألعاب، فمن المحتمل أن يكون مزودًا بمعالجات الرسوميات تلك لتوليد رسومات متقدمة للعب ماين كرافت أي تي إكس مثلًا. وقد تلاحظ أيضًا أنه ينتج حرارة أكبر بكثير من أجهزة الحاسوب النقالة العادية.

ويعني كل ذلك أن تطوير نماذج متقدمة للذكاء الاصطناعي يتسبب في انبعاث بصمة كربونية كبيرة. فإن لم ننتقل إلى مصادر للطاقة المتجددة بصورة كاملة سيتعارض تقدم الذكاء الاصطناعي مع أهداف خفض الانبعاثات الكربونية وجهود إبطاء عملية تغير المناخ. وكذلك أصبحت التكلفة المالية للتطوير أيضًا عالية جدًا فلا يستطيع سوى عدد قليل من المختبرات القيام بذلك، ما يجعلها المتحكمة بأنواع نماذج الذكاء الاصطناعي التي ستطور مستقبلًا.

القليل يأتي بالمزيد

فكيف سيكون مستقبل أبحاث الذكاء الاصطناعي في ضوء تلك الحقائق؟

ليست الصورة قاتمة كما يظن للوهلة الأولى، فربما تنخفض تكلفة تدريب النماذج بعد تطوير طرائق أكفأ. فمثلًا كان من المتوقع أن يتزايد استهلاك مراكز البيانات للطاقة في السنوات الأخيرة إلا أن هذا لم يحدث بسبب التحسينات في كفاءتها وتجهيزاتها وعمليات تبريدها.

ويضاف إلى ذلك أن تكلفة تدريب نماذج الاصطناعي تؤثر على تكلفة استخدامها، فعند إنفاق طاقة أكبر في التدريب للوصول إلى نموذج أصغر منخفض التكلفة التشغيلية فإن استخدامه عدة مرات في عمره الافتراضي سيخفض كثيرًا مقدار الطاقة الإجمالية اللازمة لاستخدامه.

وقالت الباحثة «في بحثي، اختبرت طرائق لجعل نماذج الذكاء الاصطناعي أصغر من خلال مشاركة الأوزان أو استخدام الأوزان ذاتها في أجزاء متعددة من الشبكة. ونطلق على هذه الشبكات اسم متحورة الشكل، لأنا تتيح إعادة تشكيل مجموعة صغيرة من الأوزان في شبكة أكبر بأشكال أو هياكل مختلفة. وكشف باحثون آخرون أن تقاسم الوزن له أداء أفضل عند استخدام الوقت ذاته في التدريب.»

وفي المستقبل سينبغي على مجتمع الذكاء الاصطناعي أن يستثمر أكثر في تطوير خطط تدريب موفرة للطاقة. وإلا سيكون من المخاطرة أن يصبح الذكاء الاصطناعي تحت سيطرة جهات قليلة قادرة على تحمل تكلفة التطوير المستقبلي وتحديد أنواع نماذجه، وكذلك أنواع البيانات المستخدمة لتدريبها وأغراض استخدامها.