يمكن للذكاء الاصطناعي مساعدة الباحثين على فهم ما تقوم به الفيروسات
Libusha Kelly
الفيروسات هي قوة غامضة وغير مفهومة بشكل جيد في النظم البيئية الميكروبية. يعلم الباحثون أنها يمكن أن تصيب وتقتل وتتلاعب بالخلايا البشرية والبكتيرية في معظم البيئات، من المحيطات إلى أمعائك. ولكن العلماء لا يملكون بعد صورة كاملة عن كيفية تأثير الفيروسات على البيئات المحيطة بها، ويعود ذلك جزئيًا إلى تنوعها الاستثنائي وقدرتها على التطور بسرعة.
من الصعب دراسة مجتمعات الميكروبات في بيئة المختبر. العديد من الميكروبات صعبة الزراعة، ولبيئتها الطبيعية العديد من الخصائص التي تؤثر على نجاحها أو فشلها أكثر مما يمكن للعلماء تقليده في المختبر.
لذا، يقوم علماء بيولوجيا الأنظمة بتسلسل كل الحمض النووي الموجود في العينة – على سبيل المثال، عينة براز من مريض – لاستخراج تسلسل الحمض النووي الفيروسي .ثم يحددون أجزاء الجينوم الفيروسي التي ترمز للبروتينات، وتساعد هذه الملاحظات حول موقع الجينات وبنيتها ووظائفها الأخرى الباحثين على فهم الوظائف التي قد تؤديها الفيروسات في البيئة وتساعد في تصنيف أنواع مختلفة من الفيروسات. يقوم الباحثون بمقارنة التسلسلات الفيروسية في العينة بقواعد بيانات التسلسلات الجينية الفيروسية العامة.
ومع ذلك، يقوم العلماء بتحديد تسلسلات فيروسية في الحمض النووي المجموع من البيئة بمعدل يتجاوز بكثير قدرتنا على توضيح تلك الجينات. هذا يعني أن الباحثين ينشرون نتائج حول الفيروسات في النظم البيئية الميكروبية باستخدام نسب صغيرة غير مقبولة من البيانات المتاحة.
لتحسين قدرة الباحثين على دراسة الفيروسات حول العالم، طورت أنا وفريقي طريقة جديدة لتوضيح تسلسلات الفيروسات باستخدام الذكاء الاصطناعي. من خلال نماذج لغة البروتينات التي تشبه نماذج اللغة الكبيرة مثل ChatGPT ولكن المخصصة للبروتينات، تمكنا من تصنيف تسلسلات فيروسية غير مرئية سابقًا. هذا يفتح الباب أمام الباحثين ليس فقط لمعرفة المزيد عن الفيروسات، ولكن أيضًا لمعالجة الأسئلة البيولوجية التي يصعب الإجابة عنها بالتقنيات الحالية.
توضيح الفيروسات باستخدام الذكاء الاصطناعي
تستخدم نماذج اللغة الكبيرة العلاقات بين الكلمات في مجموعات بيانات نصية كبيرة لتقديم إجابات محتملة عن الأسئلة التي لم يتم “تعليمها” الإجابة عنها بشكل صريح. على سبيل المثال، عندما تسأل الدردشة الآلية: “ما هي عاصمة فرنسا؟”، فإن النموذج لا يبحث عن الإجابة في جدول للعواصم، بل يستخدم تدريبه على مجموعات بيانات ضخمة من الوثائق والمعلومات لاستنتاج الإجابة: “عاصمة فرنسا هي باريس”.
بالمثل، نماذج لغة البروتينات هي خوارزميات ذكاء اصطناعي تدربت على التعرف على العلاقات بين مليارات تسلسلات البروتينات من بيئات حول العالم. من خلال هذا التدريب، قد تكون قادرة على استنتاج شيء عن جوهر البروتينات الفيروسية ووظائفها.
تساءلنا ما إذا كانت نماذج لغة البروتينات يمكن أن تجيب عن هذا السؤال: “بناءً على جميع التسلسلات الجينية الفيروسية الموضحة، ما هي وظيفة هذا التسلسل الجديد؟”.
في إثبات مفهومنا، قمنا بتدريب شبكات عصبية على تسلسلات البروتينات الفيروسية الموضحة مسبقًا في نماذج لغة البروتينات المدربة مسبقًا، ثم استخدمناها للتنبؤ بتوضيح تسلسلات البروتينات الفيروسية الجديدة. يسمح لنا هذا النهج بفحص ما يراه النموذج في تسلسل فيروسي معين يؤدي إلى توضيح معين. يساعد هذا في تحديد البروتينات المرشحة ذات الاهتمام، إما بناءً على وظائفها المحددة أو كيفية ترتيب جينومها، مما يقلل من مساحة البحث في مجموعات البيانات الضخمة.
بتحديد وظائف الجينات الفيروسية ذات الصلة البعيدة، يمكن لنماذج لغة البروتينات أن تكمل الطرق الحالية لتقديم رؤى جديدة في علم الأحياء الميكروبي. على سبيل المثال، تمكنا من استخدام نموذجنا لاكتشاف إنتيغريز غير معروف سابقًا – نوع من البروتين الذي يمكنه نقل المعلومات الجينية داخل وخارج الخلايا – في البيكوسيانوبكتيريا البحرية المنتشرة عالميًا، Prochlorococcus وSynechococcus. من الجدير بالذكر، قد يكون هذا الإنتيغريز قادرًا على نقل الجينات داخل وخارج هذه الأنواع من البكتيريا في المحيطات وتمكين هذه الميكروبات من التكيف بشكل أفضل مع البيئات المتغيرة.
كما حدد نموذج اللغة لدينا بروتين كبسيد فيروسي جديد ينتشر على نطاق واسع في المحيطات العالمية. لقد أنتجنا أول صورة توضح كيفية ترتيب جيناته، مما يُظهر أنه يمكن أن يحتوي على مجموعات مختلفة من الجينات التي نعتقد أنها تشير إلى أن هذا الفيروس يؤدي وظائف مختلفة في بيئته.
تمثل هذه النتائج الأولية اثنين فقط من آلاف التوضيحات التي قدمها نهجنا.
تحليل المجهول
هناك مئات الآلاف من الفيروسات المكتشفة حديثًا لا تزال غير مصنفة. العديد من التسلسلات الجينية الفيروسية تطابق عائلات بروتينات ليس لها وظيفة معروفة أو لم يسبق رؤيتها من قبل. يُظهر عملنا أن نماذج لغة البروتينات المماثلة يمكن أن تساعد في دراسة التهديد والوعد الذي تحمله العديد من الفيروسات غير الموصوفة على كوكبنا.
بينما ركزت دراستنا على الفيروسات في المحيطات العالمية، فإن تحسين توضيح البروتينات الفيروسية أمر حاسم لفهم أفضل للدور الذي تؤديه الفيروسات في الصحة والمرض في جسم الإنسان. نحن وباحثون آخرون قد فرضنا أن نشاط الفيروسات في ميكروبيوم الأمعاء البشرية قد يتغير عندما تكون مريضًا. هذا يعني أن الفيروسات قد تساعد في تحديد الضغوط في المجتمعات الميكروبية.
ومع ذلك، فإن نهجنا محدود أيضًا، لأنه يتطلب توضيحات عالية الجودة. يقوم الباحثون بتطوير نماذج لغة بروتينية أحدث تدمج “مهام” أخرى كجزء من تدريبها، وخاصة التنبؤ بتراكيب البروتينات لاكتشاف بروتينات مماثلة، لجعلها أكثر قوة.
جعل جميع أدوات الذكاء الاصطناعي متاحة عبرFAIR Data Principles – بيانات يمكن العثور عليها، ويمكن الوصول إليها، وقابلة للتشغيل المتبادل وقابلة لإعادة الاستخدام – يمكن أن يساعد الباحثين على نطاق واسع في إدراك إمكانات هذه الطرق الجديدة لتوضيح تسلسلات البروتينات، مما يؤدي إلى اكتشافات تعود بالنفع على صحة الإنسان.
المصدر: The Conversation