الذكاء الاصطناعي يتنبأ بالتعبير الجيني في خلية واحدة

AI بالعربي – ترجمات

يمكن أداة الذكاء الاصطناعي الجديدة scGPT التعرف على أنواع الخلايا، والتنبؤ بتأثيرات تعطيل الجينات، وتحديد الجينات التي تتفاعل بعضها مع بعض.

يحقق العلماء في أهداف المرض من خلال دراسة بيانات التعبير الجيني التي غالبًا ما يتم الحصول عليها عن طريق تحليل أعداد الخلايا كلها. على سبيل المثال، استخدم الباحثون تسلسل الحمض النووي الريبي (RNA) السائب لاكتشاف أهداف البروتين المرتبطة بالسرطان، والتي يمكن معالجتها بالأدوية، وللكشف عن علامات حيوية محتملة تعتمد على الدم للتشخيص المبكر لمرض الزهايمر.

في الآونة الأخيرة، لجأ العلماء إلى تسلسل الحمض النووي الريبي لخلية واحدة (scRNA-seq) ، والذي يوفر رؤى حول كيفية اختلاف التعبير الجيني بين الخلايا الفردية. وعادةً ما يحلل العلماء بيانات scRNA-seq باستخدام أدوات التعلم الآلي التي تم بناؤها من الصفر للقيام بمهام فردية محددة, وذلك بحسب ذا ساينتيست.

قام “بو وانغ”، عالم الأحياء الحاسوبية، وفريقه من علماء الكمبيوتر وعلماء الأحياء الخلوية في جامعة تورنتو، ببناء نموذج جديد للذكاء الاصطناعي (AI) يسمى محولاً توليديًا مسبقًا لخلية واحدة، أوscGPT ، يمكن ضبطه بدقة لتنفيذ مجموعة متنوعة من المهام باستخدام بيانات .scRNA-seq وتتضمن هذه المهام التنبؤ بتأثيرات معالجة جينات معينة ودمج دفعات مختلفة من البيانات معًا للكشف عن أنواع الخلايا التي لا يمكن اكتشافها بخلاف ذلك.

تعد scGPT أداة أساسية في مجال الذكاء الاصطناعي، إذ يمكن استخدامها لبناء نموذج أساسي وتعديله لإنتاج إصدارات متميزة تنفذ مهام متعددة. يعمل ChatGPT، وهو نموذج الذكاء الاصطناعي الأكثر شهرة، بنفس الطريقة تقريبًا. ومع ذلك، بينما يولد الدردشة الآلية الكلمات المناسبة للجملة، يتوقع scGPT تعبيرات جينية في خلايا الجسم.

وفقًا لـ”وانغ”، فإن استخدام نموذج أساسي واحد لأداء العديد من المهام النهائية مفيد، لأنه يمكن أن يتسبب استخدام نماذج حسابية مختلفة لتنفيذ مهام مختلفة في عدم الانسجام عند مقارنة البيانات من التحليلات المتميزة. وقد يتخذ كل نهج حسابي افتراضات مختلفة فيما يتعلق ببنية البيانات نفسها بناءً على كيفية بنائها، وقد يؤدي هذا إلى استنتاجات أقل دقة.

في دراستهم الاستقصائية الحديثة، قام فريق “وانغ” بإظهار أن scGPT يحلل بيانات scRNA-seq بشكل أفضل من الأساليب القياسية. إذ بدؤوا أولاً بتدريب scGPT لمدة أربعة أيام باستخدام بيانات scRNA-seq التمثيلية لأكثر من 10.3 مليون خلية من الدم والنخاع العظمي، والتي تشمل أكثر من 50 نوعًا مختلفًا من الخلايا.

تمكن هذا النموذج من فهم الروابط الأساسية بين تعبير الجينات داخل الخلايا وعبرها. ونظرًا لأن جميع الجينات لا يتم تعبيرها في كل خلية، وتعبير بعض الجينات يكون على مستويات غير ملموسة بواسطة تقنية التسلسل الحالية، تم توفير معلومات عن عدة آلاف من الجينات الموجودة في الجينوم البشري لكل خلية. بشكل عام، يمكن أن يتعلم النموذج scGPT تقريبًا جميع الجينات الموجودة في الجينوم.

كانت إحدى المهام التي قام الفريق بتعديل النموذج الأساسي لتحقيقها، هي دمج 10 دفعات مميزة من بيانات scRNA-seq التي تم جمعها سابقًا من الخلايا المناعية البشرية. باستخدام جزء من البيانات من كل دفعة، قاموا بتعليم النموذج تصنيف نفس أنواع الخلايا عبر مجموعات البيانات للوصول إلى مجموعات مشتركة.

وتعلم scGPT أيضًا كيفية التكيف مع أي اختلافات بين الدُفعات الناتجة عن عوامل غير بيولوجية، مثل اليوم الذي تم فيه إجراء التجربة أو كيفية جمع الخلايا. ومن خلال تجميع مجموعات البيانات معًا بهذه الطريقة، وهي عملية تُعرف باسم تكامل الدُفعات، فإنه يتم تعزيز كمية البيانات على كل نوع من الخلايا، مما يسمح للعلماء باكتشاف وتوصيف أنواع الخلايا النادرة بشكل أفضل والتي يمكن أن تلعب دورًا في حالات صحية أو مرضية.

ثم اختبر الباحثون مدى جودة النسخة المعدلة من scGPT وثلاثة من أكثر الطرق شيوعًا المستخدمة لهذه المهمة في دمج البيانات المتبقية غير المرئية سابقًا. فصنَّفت scGPT أنواع الخلايا من دفعات مختلفة معًا بنسبة خمسة في المئة أكثر فعالية من النماذج القياسية، وصححت التأثيرات غير البيولوجية بشكل جيد مقارنة بالطرق المستخدمة على نطاق واسع.

أجرى الفريق أيضًا اختبارًا لقياس جودة إصدار مختلف من scGPT مقارنةً بنموذج قياسي يُعرف باسم GEARS في التنبؤ بتأثير أكثر من 80 جينًا مشوهًا – إما بشكل فردي أو في ثنائي – على نشاط الجينات الأخرى. ومن خلال التركيز على تعبير 20 جينًا يتأثر بشكل كبير بكل تلاعب وراثي، لاحظ “وانغ” وفريقه أن scGPT كان في المقدمة وأظهر أداءً متفوقًا.

وتساءل أحمد محفوظ، عالم الأحياء الحسابية في المركز الطبي لجامعة ليدن في هولندا والذي لم يشارك في الدراسة: “هل تؤدي هذه التحسينات حقًا إلى معرفة بيولوجية إضافية؟ هل هي مفيدة في توليد فرضيات جديدة؟”.

وفي حين كانت النتائج واعدة، حذر “محفوظ” من أن هذه النماذج تحتوي على ملايين المعلومات وتتطلب الكثير من البيانات للتدريب. ونتيجة لذلك، فإنها تستهلك الكثير من الطاقة ولديها بصمة كربونية ضخمة. وبناءً على هذا الطلب المرتفع على الطاقة أثناء التدريب، ولأن الباحثين سيحتاجون إلى بعض الألفة مع التعلم الآلي للإشراف على عملية الضبط الدقيق؛ فمن غير الواضح مدى انتشار استخدام scGPT بين علماء الأحياء الخلوية.

ومع ذلك، قال “وانغ”: “الضبط الدقيق فعال جدًا”. و”بالنسبة لمجموعة بيانات لنقل 10000 أو 20000 خلية، فأنت تحتاج فقط من خمس إلى عشر دقائق”. يأمل الفريق أن يجعلscGPT متاحًا على نطاق واسع. وأكد الفريق قائلاً: “لقد جعلنا التعليمات البرمجية والنموذج متاحين للجميع، ونحن نعمل بجد لإنشاء مواقع ويب تعليمية، وتوفير الكثير من البرامج التعليمية مع أمثلة ملموسة لكل مهمة يمكن أن تحلها”.

يخطط فريق “وانغ” لمواصلة العمل علىscGPT ، وفي حين أن النسخة الأصلية من النموذج مفيدة لتحليل نخاع العظام والخلايا المناعية، أصدر الفريق، مؤخرًا، نموذجًا محدثًا من scGPT تم تدريبه على 33 مليون خلية تشمل خلايا الدماغ والدم والبنكرياس والرئة والقلب والكلى والسرطان والأمعاء.

في الآونة الأخيرة، تم إصدار نماذج أساسية مشابهة لـ scGPT، وهذا يشير إلى أنه من المحتمل أن تكتسب أي من هذه النماذج الزخم في مجال البحث في وقت قريب. ويعتقد الباحث “محفوظ” أن النماذج مثل scGPT ستكون قادرة على تقديم إجابات على أسئلة بيولوجية مهمة في المستقبل القريب، وعلى الرغم من عدم وجود دليل قاطع حتى الآن، إلا أنه يعتبر أن الوقت سيثبت ذلك. وقال “إنه وقت مثير. بحلول نهاية العام، أعتقد أنه سيكون لدينا رؤية مختلفة تمامًا عما نراه حاليًا.