الرموز سبب كبير في تقصير الذكاء الاصطناعي التوليدي
Kyle Wiggers
نماذج الذكاء الاصطناعي التوليدي لا تعالج النصوص بالطريقة التي يعالجها البشر. قد يساعد فهم بيئاتها الداخلية المستندة إلى “الرموز” في تفسير بعض سلوكياتها الغريبة والقيود الصارمة.
معظم النماذج، من النماذج الصغيرة على الأجهزة مثل Gemma إلى نموذج GPT-4o الرائد في الصناعة من OpenAI، مبنية على بنية تُعرف بالمحول “Transformer”. بسبب الطريقة التي يستحضر بها المحولات الارتباطات بين النص وأنواع البيانات الأخرى، لا يمكنها تناول أو إخراج النص الخام على الأقل ليس من دون كمية هائلة من الحوسبة.
لذا، لأسباب عملية وتقنية على حد سواء، تعمل نماذج المحولات الحالية مع النص الذي تم تقسيمه إلى قطع أصغر تُسمى الرموز، وهي عملية تُعرف بالتقسيم إلى رموز.
يمكن أن تكون الرموز كلمات، مثل “رائع”. أو يمكن أن تكون مقاطع صوتية، مثل “را” و”ئع”. اعتمادًا على المُقسِّم – النموذج الذي يقوم بعملية التقسيم – قد تكون حتى أحرف فردية في الكلمات، مثل “ر” و”ا” و”ئ” و”ع”.
باستخدام هذه الطريقة، يمكن للمحولات استيعاب المزيد من المعلومات “بالمعنى الدلالي” قبل أن تصل إلى حد أعلى يُعرف بنافذة السياق. ولكن يمكن أن يؤدي التقسيم إلى رموز إلى إدخال تحيزات أيضًا.
بعض الرموز تحتوي على تباعد غريب، مما يمكن أن يُربك المحول. قد يقوم المُقسِّم بترميز “كان يا ما كان” مثل “كان” و”يا” و”ما” و”كان”، على سبيل المثال، بينما يُرمّز “كان يا ما”، الذي يحتوي على مسافة زائدة في النهاية، مثل “كان” و”يا” و”ما”. اعتمادًا على كيفية توجيه النموذج – بـ”كان يا ما” أو “كان يا ما” – قد تكون النتائج مختلفة تمامًا، لأن النموذج لا يفهم، كما سيفهم الشخص، أن المعنى هو نفسه.
يعامل المُقسِّمون الحالة بشكل مختلف أيضًا. “مرحبًا” ليست بالضرورة هي نفسها “مَرْحَبًا” بالنسبة للنموذج؛ “مرحبًا” عادةً ما تكون رمزًا واحدًا، اعتمادًا على المُقسِّم، بينما “مَرْحَبًا” يمكن أن تكون ما يصل إلى ثلاثة رموز “مَ” و”رْ” و”حَبًا”. هذا هو السبب في أن العديد من المحولات تفشل في اختبار الحروف الكبيرة.
قال شيريدان فوخت، طالب دكتوراه يدرس تفسير نماذج اللغة الكبيرة في جامعة Northeastern، لموقع TechCrunch: “من الصعب نوعًا ما تجاوز مسألة ما يجب أن تكون عليه (الكلمة) بالضبط لنموذج اللغة، وحتى إذا اتفق الخبراء البشريون على مفردات رمزية مثالية، فمن المحتمل أن تجد النماذج أنه من المفيد (تقسيم) الأشياء أكثر”. “ظني هو أنه لا يوجد شيء مثل مُقسِّم مثالي بسبب هذا النوع من الضبابية”.
تخلق هذه “الضبابية” المزيد من المشاكل في اللغات الأخرى غير الإنجليزية.
تفترض العديد من طرق التقسيم إلى رموز أن الفضاء في الجملة يدل على كلمة جديدة؛ ذلك لأنها صُممت مع وضع اللغة الإنجليزية في الاعتبار. لكن ليس كل اللغات تستخدم الفضاءات لفصل الكلمات. الصينية واليابانية لا تستخدمان الفضاءات، وكذلك الكورية والتايلاندية والخميرية.
وجدت دراسة أجرتها جامعة أكسفورد في عام 2023، أنه بسبب الاختلافات في طريقة تقسيم اللغات غير الإنجليزية إلى رموز، يمكن أن يستغرق المحول ضعف الوقت لإكمال مهمة مصاغة بلغة غير إنجليزية مقارنةً بنفس المهمة المصاغة باللغة الإنجليزية. ووجدت نفس الدراسة – ودراسة أخرى – أن مستخدمي اللغات الأقل “كفاءة في الرموز” من المحتمل أن يروا أداءً أسوأ للنموذج ويدفعون أكثر للاستخدام، نظرًا لأن العديد من مزودي الذكاء الاصطناعي يتقاضون رسومًا لكل رمز.
غالبًا ما يعامل المُقسِّمون كل حرف في أنظمة الكتابة اللوغوغرافية – الأنظمة التي تمثل فيها الرموز المطبوعة الكلمات دون علاقة بالنطق، مثل الصينية – كرمز مميز، مما يؤدي إلى ارتفاع عدد الرموز. وبالمثل، يميل المُقسِّمون الذين يعالجون اللغات اللاصقة – اللغات التي تتكون فيها الكلمات من عناصر كلمة صغيرة ذات معنى تُسمى الصُغَيرات، مثل التركية – إلى تحويل كل صُغَيرة إلى رمز، مما يزيد من إجمالي عدد الرموز. الكلمة المكافئة لـ”مرحبًا” في التايلاندية هي ستة رموز.
في عام 2023، أجرت ياني جون، باحثة في الذكاء الاصطناعي لدى Google DeepMind، تحليلًا يقارن تقسيم اللغات المختلفة إلى رموز وتأثيراتها النهائية. باستخدام مجموعة بيانات من النصوص الموازية المترجمة إلى 52 لغة، أظهرت جون أن بعض اللغات تحتاج إلى ما يصل إلى 10 أضعاف الرموز لالتقاط نفس المعنى في الإنجليزية.
بعيدًا عن عدم المساواة اللغوية، قد يفسر التقسيم إلى رموز سبب كون النماذج الحالية سيئة في الرياضيات.
نادراً ما يتم تقسيم الأرقام إلى رموز بشكل متسق. لأن المُقسِّمين لا يعرفون حقًا ما هي الأرقام، فقد يعاملون “380” كرمز واحد، لكن يُمثلون “381” كزوج “38” و”1″، مما يدمر فعليًا العلاقات بين الأرقام والنتائج في المعادلات والصيغ. والنتيجة هي ارتباك المحول. أظهرت ورقة بحثية حديثة أن النماذج تواجه صعوبة في فهم الأنماط العددية المتكررة والسياق، خصوصًا البيانات الزمنية. GPT-4 يعتقد أن 7.735 أكبر من 7.926.
هذا هو السبب أيضًا في أن النماذج ليست جيدة في حل مشاكل الجناس الناقص أو عكس الكلمات.
لذا، فإن التقسيم إلى رموز يمثل بوضوح تحديات للذكاء الاصطناعي التوليدي. فهل يمكن حلها؟ ربَّما.
يشير فوخت إلى نماذج الفضاء الحرفي على مستوى البايت مثل MambaByte، التي يمكنها استيعاب بيانات أكثر بكثير من المحولات دون عقوبة في الأداء من خلال التخلص تمامًا من التقسيم إلى رموز. يعمل MambaByte مباشرةً مع البايتات الخام التي تمثل النصوص والبيانات الأخرى، وهو منافس لبعض نماذج المحولات في مهام تحليل اللغة، بينما يتعامل بشكل أفضل مع “الضجيج” مثل الكلمات ذات الأحرف المتبادلة، والتباعد، والأحرف الكبيرة.
ومع ذلك، فإن نماذج مثل MambaByte لا تزال في مراحل البحث الأولية.
قال فوخت: “يُحتمل أن يكون من الأفضل السماح للنماذج بالنظر إلى الأحرف مباشرة دون فرض تقسيم إلى رموز، ولكن في الوقت الحالي، هذا غير ممكن حسابيًا للمحولات”. “بالنسبة لنماذج المحولات على وجه الخصوص، فإن الحساب يتزايد تربيعيًا مع طول التسلسل، ولذلك نحن حقًا نريد استخدام تمثيلات نصية قصيرة”.
باستثناء حدوث اختراق في التقسيم إلى رموز، يبدو أن بنى النماذج الجديدة ستكون هي المفتاح.
المصدر: TechCrunch