قد تكون نماذج TTT الجبهة التالية في الذكاء الاصطناعي التوليدي
Kyle Wiggers
بعد سنوات من الهيمنة من قبل شكل الذكاء الاصطناعي المعروف بالمحول، بدأ البحث عن هياكل معمارية جديدة.
تشكل المحولات الأساس لنموذج توليد الفيديو من OpenAI المعروف بـSora، وهي في قلب نماذج توليد النصوص مثل نموذج Claude من Anthropic، وGemini من Google، وGPT-4o. لكنها بدأت تواجه عقبات تقنية، وخاصة العقبات المتعلقة بالحوسبة.
المحولات ليست فعالة بشكل خاص في معالجة وتحليل كميات هائلة من البيانات، على الأقل عند تشغيلها على الأجهزة الجاهزة. وهذا يؤدي إلى زيادات حادة وربما غير مستدامة في الطلب على الطاقة، حيث تبني الشركات وتوسّع البنية التحتية لتلبية متطلبات المحولات.
معمارية واعدة تم اقتراحها هي التدريب أثناء الاختبار “TTT”، وتم تطويرها على مدى عام ونصف من قبل باحثين في ستانفورد بجامعة كاليفورنيا في سان دييغو، وجامعة كاليفورنيا في بيركلي، وميتا. يدعي فريق البحث أن نماذج TTT يمكنها معالجة كميات أكبر بكثير من البيانات مقارنةً بالمحولات، وأنها تستطيع فعل ذلك دون استهلاك نفس القدر من طاقة الحوسبة.
الحالة المخفية في المحولات
مكون أساسي في المحولات هو “الحالة المخفية”، وهي في الأساس قائمة طويلة من البيانات. عندما يعالج المحول شيئًا ما، يضيف إدخالات إلى الحالة المخفية لـ “يتذكر” ما قام بمعالجته توًّا. على سبيل المثال، إذا كان النموذج يعمل على قراءة كتاب، فإن قيم الحالة المخفية ستكون مثل تمثيلات الكلمات “أو أجزاء من الكلمات”.
قال يو صن، باحث ما بعد الدكتوراة في ستانفورد وأحد المساهمين في أبحاث TTT، لموقع TechCrunch: “إذا فكرت في المحول ككيان ذكي، فإن جدول البحث، حالته المخفية، هو دماغ المحول. هذا الدماغ المتخصص يمكن المحولات من القدرات المعروفة مثل التعلم في السياق”.
الحالة المخفية هي جزء مما يجعل المحولات قوية جدًا. لكنها أيضًا تعرقلها. لكي “يقول” كلمة واحدة فقط عن كتاب قرأه المحول توًّا، يجب على النموذج أن يفحص جدول البحث بالكامل، وهي مهمة تتطلب قدرًا كبيرًا من الحوسبة مثل إعادة قراءة الكتاب كله.
لذا خطرت لـ”صن” والفريق فكرة استبدال الحالة المخفية بنموذج تعلم الآلة، مثل الدمى المتداخلة للذكاء الاصطناعي، إذا صح التعبير، أي نموذج داخل نموذج.
الأمر تقني بعض الشيء، لكن الفحوى هي أن نموذج التعلم الآلي الداخلي لنموذج TTT، على عكس جدول البحث في المحول، لا ينمو ويكبر أثناء معالجة البيانات الإضافية. وبدلاً من ذلك، يقوم بترميز البيانات التي يعالجها في متغيرات تمثيلية تسمى الأوزان، وهو ما يجعل نماذج TTT عالية الأداء. وبغض النظر عن كمية البيانات التي يعالجها نموذج TTT، فإن حجم نموذجه الداخلي لن يتغير.
يعتقد “صن” أن نماذج TTT المستقبلية يمكنها معالجة مليارات البيانات بكفاءة، من الكلمات إلى الصور إلى التسجيلات الصوتية إلى مقاطع الفيديو. هذا يفوق بكثير قدرات النماذج الحالية.
قال “صن”: “نظامنا يمكنه قول X كلمة عن كتاب دون التعقيد الحاسوبي لإعادة قراءة الكتاب X مرات. النماذج الكبيرة للفيديو المستندة إلى المحولات، مثل Sora، يمكنها فقط معالجة 10 ثوانٍ من الفيديو، لأنها تمتلك فقط (دماغ) جدول البحث. هدفنا النهائي هو تطوير نظام يمكنه معالجة فيديو طويل يشبه التجربة البصرية للحياة البشرية”.
الشكوك حول نماذج TTT
هل ستتفوق نماذج TTT في النهاية على المحولات؟ يمكن أن يحدث ذلك. لكن من المبكر جدًا القول على وجه اليقين.
نماذج TTT ليست بديلاً فوريًا للمحولات. وقد طور الباحثون نموذجين صغيرين فقط للدراسة، مما يجعل من الصعب مقارنة TTT كطريقة ببعض تطبيقات المحولات الأكبر الموجودة حاليًا.
قال مايك كوك، المحاضر الأول في قسم المعلوماتية في كلية كينغز في لندن، الذي لم يكن مشاركًا في أبحاث TTT: “أعتقد أنها ابتكار مثير للاهتمام تمامًا، وإذا كانت البيانات تدعم الادعاءات بأنها توفر مكاسب في الكفاءة، فهذا خبر رائع. لكن لا أستطيع أن أخبرك ما إذا كانت أفضل من المعماريات الحالية أم لا. كان أستاذي القديم يروي نكتة عندما كنت طالبًا جامعيًا: كيف تحل أي مشكلة في علوم الكمبيوتر؟ أضف طبقة أخرى من التجريد. إن إضافة شبكة عصبية داخل شبكة عصبية بالتأكيد تذكرني بذلك”.
بغض النظر عن ذلك، يشير تسارع وتيرة البحث في بدائل المحولات إلى اعتراف متزايد بالحاجة إلى اختراق.
أصدرت شركة Mistral الناشئة في مجال الذكاء الاصطناعي نموذجًا يسمى Codestral Mamba، يعتمد على بديل آخر للمحول يسمى نماذج الفضاء الحالية “SSMs”. يبدو أن نماذج SSM، مثل نماذج TTT، أكثر كفاءة حسابيًا من المحولات ويمكن أن تتوسع لتشمل كميات أكبر من البيانات.
AI21 Labs تستكشف أيضًا نماذج SSM. وكذلك شركة Cartesia، التي كانت رائدة في بعض أول نماذج SSM وأسماء Codestral Mamba، Mamba وMamba-2.
إذا نجحت هذه الجهود، فقد يجعل ذلك الذكاء الاصطناعي التوليدي أكثر سهولة وانتشارًا مما هو عليه الآن، سواء للأفضل أو للأسوأ.
المصدر: TechCrunch