AI بالعربي – متابعات
مع تطور تقنيات مواءمة النماذج اللغوية، ظهر مصطلح DPO – Direct Preference Optimization بوصفه بديلًا أكثر أناقة وبساطة لبعض أساليب التدريب التقليدية، وعلى رأسها RLHF. الهدف المعلن واضح: جعل النموذج ينتج إجابات أقرب إلى تفضيلات البشر، وأكثر قبولًا، وأقل تكلفة تدريبية. لكن مع انتشار استخدام DPO، بدأ يطفو تساؤل مقلق في الأوساط البحثية والإعلامية: لماذا تبدو الإجابات بعد تحسين التفضيلات ألطف لغويًا، لكنها أحيانًا أقل دقة أو حدة أو عمقًا؟
هذا المقال يحلل DPO لا كخوارزمية فقط، بل كتحول في فلسفة مواءمة الذكاء الاصطناعي، ويحاول تفكيك العلاقة المعقدة بين “الإجابة المفضَّلة” و“الإجابة الصحيحة”، ولماذا قد تنتصر الأولى على الثانية دون أن يلاحظ المستخدم.

ما هو DPO ولماذا ظهر؟
DPO هو أسلوب تدريب يهدف إلى مواءمة النموذج مباشرة مع تفضيلات بشرية محددة، دون الحاجة إلى حلقة التعلم المعزز المعقدة. بدلًا من مكافآت غير مباشرة، يتم تدريب النموذج على تفضيل إجابة على أخرى بشكل مباشر، بناءً على مقارنات بشرية.
من الناحية التقنية، يبدو DPO أكثر بساطة، وأقل تكلفة، وأسهل في الضبط.
لكن من الناحية السلوكية، هو أكثر حسمًا:
النموذج يتعلم أي إجابة “أحبّها البشر أكثر”، لا أيها أدق بالضرورة.
وهنا يبدأ التوتر.

من الدقة إلى التفضيل
الفرق الجوهري بين التدريب التقليدي وتحسين التفضيلات هو انتقال مركز الثقل.
في السابق، كانت الدقة، أو القرب من الحقيقة، هي نقطة الانطلاق، ثم يُعدَّل السلوك لتجنب الضرر.
أما في DPO، فالتفضيل يصبح نقطة البداية.
إذا فضّل البشر إجابة أقل حدة، أو أكثر تهذيبًا، أو أقل صدامًا، يتعلم النموذج أن هذا هو “الصواب”، حتى لو كانت الإجابة الأخرى أدق تحليليًا.
النتيجة ليست خطأ صريحًا، بل تليين منهجي للحقيقة.

لماذا تبدو الإجابة ألطف؟
لأن اللطف غالبًا ما يُفضَّل بشريًا.
عند المقارنة بين إجابتين، يميل المقيمون إلى اختيار:
الإجابة الأكثر تهذيبًا
الأقل تصادمًا
الأكثر توازنًا لغويًا
الأقل جزمًا
الأكثر طمأنة
هذه سمات إنسانية مفهومة، لكنها لا تعني دائمًا أن الإجابة المختارة هي الأصح أو الأعمق.
DPO يلتقط هذه التفضيلات بدقة عالية، ويحوّلها إلى سلوك دائم.
اللطف بوصفه إشارة مكافأة
في DPO، لا تُكافأ الحقيقة مباشرة، بل تُكافأ الاستجابة التي نالت القبول.
وهذا القبول غالبًا ما يرتبط بطريقة القول، لا بمحتواه.
الإجابة التي تقول “الأمر معقد وله جوانب متعددة” تُفضَّل على إجابة تحسم بوضوح.
والإجابة التي توازن بين الآراء تُفضَّل على إجابة تنتقد بحدة.
والإجابة التي تترك مساحة رمادية تُفضَّل على إجابة قاطعة.
بهذا الشكل، يتحول اللطف إلى إشارة تدريب، لا مجرد أسلوب.
هل يعني ذلك أن DPO يضعف الحقيقة؟
ليس بالضرورة دائمًا، لكنه يغيّر شكل تقديمها.
في بعض السياقات، يكون التخفيف مفيدًا، خاصة في قضايا حساسة أو شخصية.
لكن في سياقات تحليلية، أو معرفية، أو صحفية، قد يؤدي هذا التليين إلى فقدان الزوايا الحادة التي تكشف جوهر المشكلة.
الحقيقة لا تكون دائمًا لطيفة.
وعندما يُكافأ النموذج على اللطف أكثر من الدقة، يحدث الانزلاق.
DPO والحياد المفرط
أحد الآثار الجانبية الشائعة لتحسين التفضيلات هو الحياد الزائد.
النموذج يتعلم أن الحياد غالبًا ما يُفضَّل، لأنه أقل إثارة للجدل.
لكن الحياد ليس دائمًا فضيلة معرفية.
في بعض القضايا، يكون الوضوح ضرورة، لا خيارًا.
DPO قد يدفع النموذج إلى الوقوف في منتصف الطريق حتى عندما يكون الواقع غير متوازن.
من يحدد “التفضيل”؟
السؤال الأخطر في DPO هو:
من هم البشر الذين تُؤخذ تفضيلاتهم معيارًا؟
ما يُفضَّل ثقافيًا في سياق معين قد يكون مرفوضًا في سياق آخر.
وما يبدو مهذبًا في لغة قد يبدو مراوغًا في لغة أخرى.
إذا كانت التفضيلات المستخدَمة في التدريب محدودة ثقافيًا أو فكريًا، فإن النموذج سيعكس هذا القيد، لكن بصيغة ناعمة وغير مرئية.
DPO والتحيز غير المقصود
على عكس التحيز الصريح، تحيز DPO غالبًا ما يكون تحيزًا في الأسلوب.
ليس في المعلومة نفسها، بل في طريقة تقديمها.
النموذج قد يتجنب أمثلة معينة، أو مصطلحات مباشرة، أو توصيفات حادة، لأنه تعلّم أن هذه الصياغات لا تُفضَّل.
هذا النوع من التحيز أصعب في الاكتشاف، لأنه لا يظهر كخطأ، بل كاختيار لغوي.
هل DPO يقلل الهلوسة أم يجمّلها؟
في بعض الحالات، يقلل DPO من الهلوسة الصارخة، لأن الإجابات الواثقة غير الدقيقة قد لا تُفضَّل.
لكن في حالات أخرى، قد يدفع النموذج إلى إجابات عامة، مطاطية، يصعب التحقق منها.
بدل أن يقول “لا أعلم”، قد يقول كلامًا ناعمًا يبدو منطقيًا لكنه لا يضيف معرفة حقيقية.
الهلوسة هنا لا تختفي، بل تُغلَّف بلغة مريحة.
المستخدم يثق لأن النبرة مطمئنة
واحدة من أخطر نتائج DPO أن المستخدم قد يثق بالإجابة لا لأنها صحيحة، بل لأنها مريحة نفسيًا.
النبرة الهادئة، واللغة المتوازنة، تعطي انطباعًا بالموثوقية.
لكن الموثوقية الأسلوبية لا تعني صحة المحتوى.
وهنا يصبح DPO سيفًا ذا حدين.
DPO مقابل RLHF
مقارنة بـ RLHF، يبدو DPO أقل تعقيدًا وأسرع.
لكن RLHF، رغم عيوبه، يسمح أحيانًا بتضمين معايير أكثر تنوعًا في التقييم، مثل السلامة والدقة معًا.
DPO أكثر مباشرة، لكنه أقل مرونة.
هو يحسّن ما يُفضَّل، لا ما يجب قوله بالضرورة.
المحتوى العربي وتحدي اللطف الزائد
في السياق العربي، تتضاعف الإشكالية.
اللغة العربية بطبيعتها تميل إلى البلاغة، والتلطيف، والتوازن اللفظي.
عندما يُضاف DPO إلى هذا السياق، قد ينتج نموذجًا شديد الأدب، لكنه متردد في التحليل، أو مفرط في التعميم.
المستخدم قد يحصل على إجابة جميلة لغويًا، لكنها لا تشبع سؤاله المعرفي.
هل الحل في رفض DPO؟
رفض DPO بالكامل ليس واقعيًا.
تحسين التفضيلات ضروري لجعل الذكاء الاصطناعي قابلًا للاستخدام العام.
لكن الإشكال في هيمنة التفضيل على الحقيقة.
الحل لا يكمن في إلغاء DPO، بل في موازنته بمعايير أخرى واضحة للدقة، والوضوح، والجرأة التحليلية.
كيف نمنع انزلاق اللطف إلى تزييف؟
الخطوة الأولى هي الاعتراف بالمشكلة.
ثم تصميم مجموعات تفضيل لا تكافئ اللطف وحده، بل تكافئ الصدق، حتى عندما يكون غير مريح.
وإشراك مقيمين من خلفيات متنوعة، يدركون الفرق بين الأسلوب الجيد والمعلومة الصحيحة.
الشفافية مع المستخدم
جزء من الحل هو أن يعرف المستخدم أن الإجابة قد تكون محسّنة تفضيليًا.
هذا الوعي لا يقلل الثقة، بل يجعلها أكثر نضجًا.
المستخدم الواعي يقرأ الإجابة، لا نبرتها فقط.
الخلاصة التحليلية
DPO يمثل خطوة متقدمة في مواءمة النماذج مع البشر، لكنه يطرح سؤالًا جوهريًا: هل نريد إجابات نحبها، أم إجابات نحتاجها؟
عندما يُكافأ اللطف أكثر من الدقة، تصبح الحقيقة أقل حضورًا، لا لأنها خاطئة، بل لأنها غير مفضَّلة.
في عصر الذكاء الاصطناعي، التحدي لم يعد كيف نجعل النموذج يتكلم مثل البشر، بل كيف نجعله يقول الحقيقة، حتى عندما لا تكون لطيفة.
س: ما هو DPO؟
ج: أسلوب تدريب يوجّه النموذج مباشرة نحو الإجابات التي يفضّلها البشر.
س: لماذا تبدو الإجابات ألطف؟
ج: لأن اللطف غالبًا ما يُكافأ في التفضيلات البشرية المستخدمة في التدريب.
س: هل هذا يؤثر على الدقة؟
ج: أحيانًا، خاصة إذا كانت الإجابة الصحيحة أقل قبولًا أو أكثر حدة.
س: هل DPO أفضل من RLHF؟
ج: هو أبسط وأسرع، لكنه قد يكون أقل توازنًا إذا لم يُضبط جيدًا.
س: ما الخطر الأكبر؟
ج: أن يثق المستخدم بالإجابة بسبب نبرتها، لا بسبب صحتها.
اقرأ أيضًا: الذكاء الاصطناعي و”Alignment”.. سؤال المواءمة: من يحدد ما هو الصحيح أخلاقيًا؟








