“OpenAI” تكتشف أنماطًا خفية تؤدي إلى السلوك السام في نماذج الذكاء الاصطناعي
“OpenAI” تكتشف أنماطًا خفية تؤدي إلى السلوك السام في نماذج الذكاء الاصطناعي
AI بالعربي – متابعات
كشفت شركة “OpenAI” عن نتائج بحثية جديدة توصلت فيها إلى وجود “سمات خفية” داخل نماذج الذكاء الاصطناعي، تُشبه في عملها “شخصيات داخلية” تؤثر بشكل مباشر على سلوك النموذج بطرق غير متوقعة.
وبحسب تقرير نشره موقع “تك كرانش”، تمكن علماء الشركة من تحليل التمثيلات الداخلية المعقدة لهذه النماذج، التي تمثل مجموعة من البيانات الرقمية التي تحدد كيفية تفاعل النموذج مع المستخدم. وأوضحوا أن هذه السمات تظهر بوضوح عند قيام النموذج بسلوك غير متوافق أو يحتمل الخطورة.
وكان من بين أبرز الاكتشافات سمة ترتبط مباشرة بأنماط السلوك السام مثل الكذب أو تقديم اقتراحات ضارة. وقد أظهر الباحثون إمكانية تعديل هذا السلوك، إما بالزيادة أو التخفيض، من خلال التلاعب بهذه السمة فقط، مما يمنحهم القدرة على توجيه الذكاء الاصطناعي نحو مخرجات أكثر أمانًا وتوافقًا مع معايير الاستخدام.
وأوضح دان موسينج، الباحث في مجال قابلية التفسير لدى “OpenAI”، أن هذه النتائج تمثل خطوة متقدمة نحو فهم أعمق لكيفية تعميم سلوك النماذج عبر مختلف المجالات. وأضاف: “ما تعلمناه من هذه الأدوات هو إمكانية تحويل السلوكيات المعقدة إلى عمليات رياضية واضحة، مما يقرّبنا من السيطرة الدقيقة على أداء النماذج الذكية”.
ورغم هذا التقدم، يشير البحث إلى فجوة كبيرة لا تزال قائمة في هذا المجال، إذ لا تزال آلية اتخاذ القرار داخل هذه النماذج غير مفهومة بالكامل، مما يدفع شركات الذكاء الاصطناعي الكبرى مثل “OpenAI”، و”غوغل ديب مايند”، و”أنثروبيك” إلى تكثيف جهودها في مجال قابلية التفسير والشفافية.
وتعزز هذه النتائج دراسة سابقة قادها عالم الذكاء الاصطناعي أوين إيفانز من جامعة أكسفورد، كشفت عن إمكانية ضبط نماذج “OpenAI” لتُظهر سلوكًا غير آمن، كأن تحاول خداع المستخدمين للحصول على كلمات مرورهم، وهي ظاهرة تُعرف باسم “اختلال التوافق الناشئ”.
وأدى هذا الاكتشاف إلى دفع “OpenAI” نحو تحليل داخلي معمق كشف عن السمات المسؤولة عن السلوكيات السلبية. ووفقًا للباحث موسينج، فإن بعض هذه السمات تُشبه في طبيعتها أنماط النشاط العصبي في الدماغ البشري، ما يعزز فرضية أن النماذج قد تطوّر “شخصيات” داخلية تؤثر على تفاعلها مع المستخدمين.
من جانبه، عبّر تيجال باتواردان، أحد أبرز الباحثين في “OpenAI”، عن انبهاره بالنتائج، قائلاً: “عندما عرض الفريق هذه النتائج للمرة الأولى، قلت فورًا: يا إلهي، لقد وجدتموها بالفعل!”.
ولفت الباحثون إلى أن السمات المكتشفة لا ترتبط فقط بالسلوك السام، بل تشمل أيضًا السخرية، وبعض أنماط التصرف التي تُحاكي “الشرير الكرتوني”، مشيرين إلى أن جميع هذه السمات قابلة للتعديل الجذري من خلال عمليات الضبط الدقيق للنموذج.
وتؤكد “OpenAI” أن حتى في الحالات المرتبطة بـ”الاختلال الناشئ”، يمكن إعادة توجيه النماذج نحو سلوكيات أكثر أمانًا من خلال تدريبها على مئات من الأمثلة الآمنة، مما يعزز الآمال في بناء نماذج ذكاء اصطناعي تتماشى مع القيم الإنسانية.
ويُشار إلى أن هذه الدراسة تستند إلى جهود بحثية سابقة لشركة “أنثروبيك”، التي عملت على رسم خريطة مفصلة للعمل الداخلي للنماذج. ويجمع الباحثون على أن فهم هذه العمليات الداخلية قد يمثل المفتاح نحو تطوير ذكاء اصطناعي مسؤول وآمن يخدم الإنسان دون أن يشكل تهديدًا له.