من الأفكار إلى الكلمات.. كيف يفكك الذكاء الاصطناعي الإشارات العصبية؟
Nicholas Card
تعدُّ واجهات الدماغ – الكمبيوتر تقنية رائدة يمكن أن تساعد الأشخاص المشلولين على استعادة الوظائف التي فقدوها، مثل تحريك اليد. تسجل هذه الأجهزة الإشارات من الدماغ وتفكك الحركة التي ينوي المستخدم القيام بها، متجاوزة الأعصاب التالفة أو المتدهورة التي تنقل عادةً تلك الإشارات الدماغية للتحكم في العضلات.
منذ عام 2006، كانت العروض التوضيحية لواجهات الدماغ – الكمبيوتر لدى البشر تركز بشكل أساسي على استعادة حركات الذراع واليد من خلال تمكين الأشخاص من التحكم في مؤشرات الكمبيوتر أو الأذرع الروبوتية. مؤخرًا، بدأ الباحثون في تطوير واجهات الدماغ – الكمبيوتر خاصة بالنطق لاستعادة القدرة على التواصل للأشخاص الذين لا يمكنهم التحدث.
بينما يحاول المستخدم التحدث، تقوم هذه الواجهات بتسجيل إشارات الدماغ الفريدة المرتبطة بمحاولات حركات العضلات للتحدث، ثم تترجمها إلى كلمات. يمكن بعد ذلك عرض هذه الكلمات كنص على الشاشة أو نطقها بصوت عالٍ باستخدام برنامج تحويل النص إلى كلام.
أنا باحث في مختبر الأطراف العصبية في جامعة كاليفورنيا، ديفيس، والذي هو جزء من تجربة BrainGate2 السريرية. أنا وزملائي عرضنا، مؤخرًا، واجهة الدماغ – الكمبيوتر للنطق تقوم بتفكيك محاولة الكلام لرجل مصاب بمرض التصلب الجانبي الضموري “ALS”، المعروف أيضًا بمرض لو جيريغ. تقوم الواجهة بتحويل الإشارات العصبية إلى نص بدقة تزيد على 97%. مفتاح نظامنا هو مجموعة من نماذج الذكاء الاصطناعي اللغوية، والشبكات العصبية الاصطناعية التي تساعد في تفسير النماذج الطبيعية.
تسجيل إشارات الدماغ
الخطوة الأولى في واجهة الدماغ – الكمبيوتر للنطق هي تسجيل إشارات الدماغ. هناك عدة مصادر لإشارات الدماغ، بعضها يتطلب جراحة للتسجيل. ويمكن للأجهزة المزروعة جراحيًا تسجيل إشارات دماغية عالية الجودة؛ لأنها توضع بالقرب من الخلايا العصبية، مما يؤدي إلى إشارات أقوى مع تداخل أقل. تشمل هذه الأجهزة تسجيل الشبكات الكهربائية الموضوعة على سطح الدماغ أو الأقطاب الكهربائية المزروعة مباشرة في أنسجة الدماغ.
في دراستنا، استخدمنا مصفوفات أقطاب كهربائية مزروعة جراحيًا في قشرة الحركة الكلامية، وهي الجزء من الدماغ الذي يتحكم في العضلات المتعلقة بالكلام، لدى المشارك كاسي هاريل. سجلنا النشاط العصبي من 256 قطبًا كهربائيًا بينما كان هاريل يحاول التحدث.
فك شفرات إشارات الدماغ
التحدي التالي هو ربط الإشارات الدماغية المعقدة بالكلمات التي يحاول المستخدم قولها.
أحد الأساليب هو ربط أنماط النشاط العصبي مباشرة بالكلمات المنطوقة. تتطلب هذه الطريقة تسجيل إشارات الدماغ المرتبطة بكل كلمة عدة مرات لتحديد العلاقة المتوسطة بين النشاط العصبي وكلمات محددة. بينما تعمل هذه الاستراتيجية بشكل جيد للمفردات الصغيرة، كما تم إثباته في دراسة عام 2021 بمفردات تتكون من 50 كلمة، تصبح غير عملية للمفردات الأكبر. تخيل أن تطلب من مستخدم واجهة الدماغ – الكمبيوتر محاولة قول كل كلمة في القاموس عدة مرات، قد يستغرق ذلك شهورًا، ولن ينجح مع الكلمات الجديدة.
بدلاً من ذلك، نستخدم استراتيجية بديلة: ربط إشارات الدماغ بالأصوات، وهي الوحدات الأساسية للصوت التي تشكل الكلمات. في اللغة الإنجليزية، هناك 39 صوتًا، بما في ذلك ch وer وoo وpl وsh، يمكن دمجها لتكوين أي كلمة. يمكننا قياس النشاط العصبي المرتبط بكل صوت عدة مرات فقط عن طريق طلب من المشارك قراءة بعض الجمل بصوت عالٍ. من خلال رسم النشاط العصبي بدقة إلى الأصوات، يمكننا تجميعها لتكوين أي كلمة إنجليزية، حتى تلك التي لم يتم تدريب النظام عليها بشكل صريح.
لتحويل إشارات الدماغ إلى كلام مفهوم، نعتمد على نماذج متقدمة للتعلم الآلي. تتميز هذه النماذج بقدرتها الفائقة على اكتشاف الأنماط الدقيقة في كميات هائلة من البيانات المعقدة، مما يجعلها مثالية لهذه المهمة الصعبة. تخيلها كأذن إلكترونية تستطيع فصل الإشارة عن الضوضاء الخلفية، تمامًا كما تفعل أنت في غرفة صاخبة. بفضل هذه النماذج، تمكنا من فك شفرة الكلام المستخلص من إشارات الدماغ بدقة تزيد على 90% في ظل ظروف مثالية.
من الأصوات إلى الكلمات
بمجرد أن نحصل على تسلسلات الأصوات المفككة، نحتاج إلى تحويلها إلى كلمات وجمل. هذه المهمة صعبة، خاصة إذا لم تكن تسلسلات الأصوات المفككة دقيقة تمامًا. لحل هذه المشكلة، نستخدم نوعين متكاملين من نماذج اللغة المعتمدة على التعلم الآلي.
النموذج الأول هو نماذج اللغة n-gram، التي تتنبأ بالكلمة الأكثر احتمالًا أن تتبع مجموعة من n كلمات. قمنا بتدريب نموذج لغة 5-gram، أو نموذج يتكون من خمس كلمات، على ملايين الجمل للتنبؤ باحتمالية كلمة بناءً على الكلمات الأربع السابقة، مما يلتقط السياق المحلي والعبارات الشائعة. على سبيل المثال، بعد “أنا جيد جدًا”، قد يقترح “اليوم” ككلمة أكثر احتمالًا من “بطاطا”. باستخدام هذا النموذج، نقوم بتحويل تسلسلات الأصوات لدينا إلى 100 تسلسل كلمة أكثر احتمالًا، مع احتمالية مرتبطة بكل منها.
النموذج الثاني هو نماذج اللغة الكبيرة، التي تدعم روبوتات المحادثة المدعومة بالذكاء الاصطناعي وتتمتع بقدرة هائلة على فهم السياق اللغوي وتوقّع الكلمات التالية في الجملة. ونستخدم نماذج اللغة الكبيرة لتصحيح خياراتنا. هذه النماذج، التي تم تدريبها على كميات هائلة من النصوص المتنوعة، تمتلك فهمًا أوسع لبنية اللغة ومعناها، وتساعدنا في تحديد أي من الجمل المرشحة الـ100 لدينا هي الأكثر منطقية في سياق أوسع.
من خلال موازنة الاحتمالات بعناية من نموذج n-gram، ونموذج اللغة الكبيرة، وتوقعاتنا الأولية للأصوات، يمكننا تقديم تخمين مدروس للغاية حول ما يحاول مستخدم واجهة الدماغ – الكمبيوتر قوله. تتيح لنا هذه العملية متعددة الخطوات التعامل مع عدم اليقين في فك شفرات الأصوات وإنتاج جمل متماسكة وملائمة للسياق.
فوائد حقيقية
في الممارسة العملية، كانت هذه الاستراتيجية لفك شفرة الكلام ناجحة بشكل ملحوظ. لقد تمكنا من مساعدة كاسي هاريل، وهو رجل مصاب بمرض ALS، من “التحدث” بدقة تزيد على 97% باستخدام أفكاره فقط. تتيح له هذه التقنية أن يتحدث بسهولة مع عائلته وأصدقائه للمرة الأولى منذ سنوات من منزله.
تمثل واجهات الدماغ – الكمبيوتر للنطق خطوة كبيرة للأمام في استعادة القدرة على التواصل. مع استمرارنا في تحسين هذه الأجهزة، تحمل وعدًا بإعطاء أملًا لأولئك الذين فقدوا القدرة على الكلام، مما يعيدهم إلى التواصل مع أحبائهم والعالم من حولهم.
ومع ذلك، لا تزال هناك تحديات، مثل جعل التكنولوجيا أكثر سهولة في الوصول، وقابلية للنقل، ومتانة على مر السنين. على الرغم من هذه العقبات، تُعد واجهات الدماغ – الكمبيوتر للنطق مثالًا قويًا على كيفية تلاقي العلم والتكنولوجيا لحل المشكلات المعقدة وتحسين حياة الناس بشكل كبير.
المصدر: The Conversation