GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

مدل‌های مولتیومیکس مبتنی بر شبکه‌های چندلایه و تک سلولی بیولوژیکی

پیشرفت‌های اخیر در فناوری‌های توالی‌یابی تک سلولی و چند omics توانایی ما را برای مدل‌سازی سیستم‌های بیولوژیکی متحول کرده است. این بررسی روش‌شناسی، چالش‌ها و کاربردهای مدل‌های مولتیومیک مبتنی بر شبکه را ترکیب می‌کند و بر نقش آن‌ها در کشف ناهمگونی سلولی و مکانیسم‌های تنظیمی تأکید می‌کند.

 

  

 1. روشهای کلیدی

الف) مدلهای گراف ناهمگن

- DeepMAPS: داده‌های scMulti-omics (مانند CITE-seq، scATAC-seq) را در یک گراف ناهمگن با استفاده از یک ترانسفورمر گراف چند راس برای مدل‌سازی روابط محلی (سلول-ژن) و جهانی (بین سلولی) ادغام می‌کند. این رویکرد از روش‌های سنتی در خوشه‌بندی سلولی و ساخت شبکه‌های بیولوژیکی خاص نوع سلولی بهتر عمل می‌کند [1][7].

- GLUE: یک چارچوب تعبیه یکپارچه مرتبط با گراف که داده‌های چند omics تک سلولی جفت نشده (مانند scRNA-seq و scATAC-seq) را با استفاده از گراف‌های هدایت شده با دانش (مثلاً تعاملات تنظیمی ژن) یکپارچه می‌کند. GLUE تعبیه‌های نهفته را از طریق آموزش خصمانه تراز می‌کند و تعاملات نظارتی را استنباط می‌کند [7].

 

ب) رویکردهای مبتنی بر رمزگذار خودکار

- scMCs: یک چارچوب رمزگذار خودکار متغیر که داده‌های رونویسی و اپی ژنتیکی را در یک بازنمایی هم‌کار ادغام می‌کند و امکان خوشه‌بندی و انتساب مشترک را فراهم می‌کند. این خوشه های جایگزین را برای گرفتن حالت‌های سلولی متنوع شناسایی می‌کند [8].

- ماتیلدا: یادگیری چند وظیفه‌ای را با رمزگذارهای خودکار متغیر برای دسته‌بندی انواع سلول و شناسایی ویژگی‌های مولکولی از داده‌های چندوجهی از طریق انتساب ویژگی post-hoc ترکیب می‌کند [5].

 

ج) شبکه‌های عصبی گراف (GNN)

- scMGCA: از رمزگذارهای خودکار کانولوشن گراف برای یادگیری تعبیه سلولی از داده‌های scRNA-seq و شناسایی نشانگرهای ژن از طریق تجزیه و تحلیل GO post-hoc استفاده می‌کند [5].

- مدل‌های ترکیبی: GNN‌ها را با مدل‌های احتمالی برای هم‌ترازی متقابل مدال ادغام کنید، مانند پیوند دسترسی کروماتین (scATAC-seq) به بیان ژن [4][6].

 

 2. استراتژی‌های یکپارچهسازی

الف) ادغام لنگر

- افقی: دسته‌ها را با استفاده از ویژگی‌های مشترک (به عنوان مثال، ژن) تراز می کند تا نویز فنی را حذف کند.

- عمودی: ترکیبی از روش‌ها (مانند scRNA-seq + proteomics) که در یک سلول اندازه‌گیری می‌شوند و به فناوری‌های ضبط ترکیبی نیاز دارند.

- مورب: با استنتاج فضاهای پنهان مشترک (به عنوان مثال، نسبت دادن مدالیتههای گمشده از طریق یادگیری چندگانه) روش‌ها را از سلول‌های مختلف تراز می‌کند [4].

 

ب) استنتاج شبکه چند لایه

- شبکه‌های ترکیبی: تعاملات استنباط شده (به عنوان مثال، بیان مشترک) را با دانش قبلی (مثلاً برهمکنش‌های پروتئین-DNA) برای مدل‌سازی مکانیسمهای تنظیمی ترکیب کنید [3].

- تجزیه و تحلیل پویا: داده‌های چند omics طولی با استفاده از شبکه‌های زمانی مدل‌سازی می‌شوند تا روابط علی را کشف کنند (به عنوان مثال، مسیرهای تمایز) [3].

 

 3. برنامه‌های کاربردی

الف) شناسایی نوع/وضعیت سلول: مدل‌هایی مانند GLUE و scMCs ناهمگونی سلولی را در بافت‌های پیچیده (مانند تومورهای ریه، لنفوم) با ادغام داده‌های اپی ژنومیک و ترانسکریپتومی حل می‌کنند [1][7][8].

ب) استنتاج تنظیمی: چارچوب‌های هدایت‌شده با دانش (به عنوان مثال، GLUE) با پیوند دادن دسترسی کروماتین به بیان ژن، عناصر تنظیم‌کننده (مانند عوامل رونویسی) را اولویت‌بندی می‌کنند [7].

ج) پیش‌بینی متقابل مدال: رمزگذارهای خودکار (مانند scMM) فراوانی پروتئین را از RNA پیش‌بینی می‌کنند یا روش‌های گمشده (مانند ATAC-seq → RNA) را نسبت می‌دهند [6].

 

 4. چالش‌ها

الف) پیچیدگی داده: نویز زیاد، پراکندگی و اثرات دسته‌ای در داده‌های تک سلولی نیاز به نرمال‌سازی قوی دارد (به عنوان مثال، یکپارچه‌سازی افقی) [4][6].

ب) اعتبارسنجی: حقیقت پایه محدود برای شبکه‌های استنباط شده، اعتبارسنجی متعامد را ضروری می‌کند (به عنوان مثال، صفحه‌های CRISPR) [3][7].

ج) مقیاس‌پذیری: مجموعه داده‌های میلیارد سلولی چارچوب‌های توزیع‌شده را می‌طلبند (به‌عنوان مثال، GNN‌های شتاب‌دار GPU) [1][6].

د) تفسیرپذیری: روش‌های پس از وقوع (به عنوان مثال، LIME، DeepLIFT) تصمیمات مدل را به ویژگی‌های بیولوژیکی (مانند ژن‌های نشانگر) پیوند می‌دهند [5].

 

 5. مسیرهای آینده

الف) چارچوب‌های یکپارچه: ترکیب GNNها، ترانسفورمرها و مدل‌های احتمالی برای ادغام چند omics جامع.

ب) شبکه‌های زمانی: مدل‌سازی تغییرات تنظیمی پویا در طول توسعه یا پیشرفت بیماری [3].

ج) هوش‌مصنوعی قابل تفسیر: افزایش قابلیت توضیح از طریق استنتاج علی و انتساب ویژگی متناسب با شبکه‌های بیولوژیکی [5][7].

 

نتیجهگیری

مدل‌های مولتیومیک مبتنی بر شبکه، زیست‌شناسی تک سلولی را با ادغام داده‌های ناهمگن در چارچوب‌های قابل تفسیر تغییر می‌دهند. در حالی که چالش‌هایی مانند مقیاس‌پذیری و اعتبارسنجی همچنان ادامه دارد، نوآوری‌ها در یادگیری گراف، رمزگذارهای خودکار و استراتژی‌های یکپارچه‌سازی ترکیبی، بینش‌های جدیدی را در مورد عملکرد سلولی و مکانیسم‌های بیماری باز می‌کنند. پیشرفت‌های آینده به پل زدن روش‌های محاسباتی با اعتبارسنجی تجربی برای ساخت مدل‌های پیش‌بینی‌کننده و مبتنی بر بیولوژیکی بستگی دارد.


منابع:

[1] https://www.nature.com/articles/s41467-023-36559-0

[2] https://www.nature.com/articles/s41580-023-00615-w

[3] https://pmc.ncbi.nlm.nih.gov/articles/PMC8934642/

[4] https://arxiv.org/html/2503.09568v1

[5] https://pmc.ncbi.nlm.nih.gov/articles/PMC11211213/

[6] https://pmc.ncbi.nlm.nih.gov/articles/PMC10516349/

[7] https://www.nature.com/articles/s41587-022-01284-4

[8] https://academic.oup.com/bioinformatics/article/39/4/btad133/7079796

[9] https://arxiv.org/abs/2503.09568

[10] https://pubmed.ncbi.nlm.nih.gov/34883510/

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد