الذكاء الاصطناعي و"Tokenization".. تقطيع العربية داخل النموذج: كيف يتغير المعنى عند التجزئة؟

AI بالعربي – متابعات

حين نتحدث مع نموذج لغوي، نظن أنه يقرأ كلماتنا كما نقرأها نحن. لكن الحقيقة مختلفة. النماذج لا ترى “الكلمات” كما نراها، بل تتعامل مع وحدات أصغر تُسمّى Tokens. هذه الوحدات هي الأساس الذي يبني عليه النموذج فهمه وتوقعاته. في اللغات اللاتينية قد تبدو العملية مباشرة نسبيًا، لكن في العربية تصبح أكثر تعقيدًا. فالعربية لغة غنية بالاشتقاق واللواصق والتشكيل، ما يجعل تقطيعها داخل النموذج عملية تؤثر أحيانًا في المعنى ذاته. هنا لا يكون Tokenization مجرد خطوة تقنية، بل عنصرًا يؤثر في كيفية فهم النموذج للنص العربي.

ما هو Tokenization؟
Tokenization هو عملية تحويل النص إلى وحدات أصغر قابلة للمعالجة. هذه الوحدات قد تكون كلمة كاملة، جزءًا من كلمة، أو حتى حرفًا أو مقطعًا شائعًا. النموذج لا يتعامل مع الجمل مباشرة، بل مع تسلسل من هذه الرموز.

كل Token يُمثَّل رقمياً داخل النموذج. ومن خلال هذا التسلسل الرقمي يتعلم النموذج الأنماط اللغوية. ما نكتبه يتحول أولًا إلى هذه الرموز قبل أي “فهم”.

لماذا لا تُستخدم الكلمات كاملة دائمًا؟
لأن عدد الكلمات الممكنة في أي لغة ضخم جدًا. لو خُصِّص رمز لكل كلمة، سيصبح النظام غير عملي. لذلك تُستخدم استراتيجيات تقسيم مرنة تسمح بإعادة تركيب الكلمات من مقاطع أصغر.

هذا يوفّر في الذاكرة ويجعل النموذج قادرًا على التعامل مع كلمات لم يرها من قبل. لكنه في المقابل يجعل شكل التقسيم مؤثرًا في المعالجة.

العربية وتحدّي الاشتقاق
العربية لغة اشتقاقية. جذر واحد قد ينتج عشرات الكلمات. مثل “كتب، كتاب، مكتبة، كتابة”. بالنسبة للبشر، الرابط واضح. أما النموذج فيراه عبر أنماط الرموز. إن قُطِّعت الكلمات بطريقة لا تُبرز هذا الرابط، قد يضعف إدراك العلاقة بينها.

طريقة التقسيم قد تجعل كلمات متقاربة دلاليًا تبدو بعيدة رقميًا، والعكس صحيح.

اللواصق والضمائر المتصلة
في العربية يمكن أن تُلصق حروف الجر والعطف والضمائر بالكلمة نفسها. كلمة مثل “وبكتابهم” تحتوي عدة عناصر في وحدة واحدة. Tokenization قد يقسمها بطرق مختلفة. كل تقسيم يخلق تمثيلًا مختلفًا.

هذا يؤثر في كيفية تعلّم النموذج للأنماط. أحيانًا يكون التقسيم الدقيق مفيدًا، وأحيانًا يشتّت المعنى.

التشكيل والحركات
وجود التشكيل يضيف طبقة أخرى من التعقيد. النص المشكول أقل شيوعًا في البيانات التدريبية. لذلك قد يتعامل النموذج معه كأنماط نادرة. التقطيع هنا قد يجعل الكلمة المشكولة تبدو مختلفة كثيرًا عن غير المشكولة، رغم تطابق المعنى.

غياب التشكيل من جهة أخرى يخلق غموضًا دلاليًا يعرفه البشر من السياق، بينما يعالجه النموذج احتماليًا.

تأثير Tokenization على طول النص
بعض اللغات تحتاج Tokens أقل لنفس المعنى، بينما قد تحتاج العربية عددًا أكبر بسبب طبيعة التقسيم. هذا يعني أن النص العربي قد يستهلك جزءًا أكبر من نافذة السياق مقارنة بلغة أخرى بنفس الطول المفاهيمي.

النتيجة أن المستخدم العربي قد يصل إلى حدود السياق أسرع دون أن يكون نصه أطول فعليًا في المعنى.

هل يؤثر ذلك في جودة الإجابة؟
نعم، أحيانًا. إذا كان التقطيع غير ملائم، قد تتجزأ أنماط لغوية مهمة. النموذج لا “يفهم” الكلمة كوحدة دلالية بشرية، بل كسلسلة رموز. جودة التقطيع تؤثر في جودة التمثيل، وبالتالي في المخرجات.

لكن النماذج الحديثة تتحسّن في هذا الجانب مع تنوّع البيانات.

التوازن بين المرونة والدقة
أنظمة Tokenization مصممة لتعمل عبر لغات متعددة. هذا يمنحها مرونة، لكنه يعني أحيانًا أنها ليست مثالية لأي لغة بعينها. العربية بخصائصها الصرفية قد تحتاج حلولًا أكثر تخصيصًا لتحقيق أفضل أداء.

التحدّي هنا لغوي وتقني في آن واحد.

هل يمكن تحسين الوضع؟
نعم، عبر تدريب النماذج على بيانات عربية أكثر تنوّعًا، واستخدام أساليب تقطيع تراعي بنية العربية. بعض الأبحاث تتجه نحو Tokenization أكثر حساسية للبنية الصرفية.

كلما تحسّنت هذه المرحلة الأساسية، تحسّن ما يُبنى عليها.

المستخدم لا يرى Tokenization لكنه يتأثر به
المستخدم يتعامل مع كلمات وجمل، لكن النموذج يرى رموزًا. الفجوة بين المستويين تُردم عبر التصميم الجيد. كلما كان التقطيع أقرب للبنية الطبيعية للغة، أصبحت الاستجابات أكثر دقة.

هذا يذكّر بأن “فهم” النموذج مبني على طبقات تقنية خفية.

العلاقة مع Embeddings والفهم الدلالي
بعد التقطيع، تتحول الرموز إلى تمثيلات عددية دلالية. إن كانت الرموز نفسها غير معبّرة جيدًا عن البنية اللغوية، يصبح التمثيل الدلالي أقل دقة. لذلك يبدأ الفهم الجيد من التقطيع الجيد.

الأساس الضعيف ينعكس على ما فوقه.

Tokenization ليس مجرد خطوة أولى
بل حجر أساس في كل ما يليها. من التوليد إلى التلخيص إلى الترجمة. أي تحسّن فيه ينعكس على الأداء العام. وأي قصور فيه يظهر في التفاصيل.

في اللغات الغنية مثل العربية، هذه الخطوة أكثر حساسية.

خلاصة المشهد
Tokenization يحدد كيف يرى النموذج اللغة قبل أن “يفهمها”. في العربية، طبيعة اللغة الاشتقاقية واللواصق والتشكيل تجعل هذه العملية مؤثرة في المعنى. التقطيع الجيد يقرب النموذج من الفهم البشري، والتقطيع غير الملائم قد يشتّت الأنماط الدلالية.

تطوّر النماذج العربية لا يعتمد فقط على حجمها، بل على مدى احترامها لبنية اللغة من أول خطوة: كيف تُجزّئ النص.