GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

شبکه‌های عصبی گراف برای داده‌های Omics تک سلولی: رویکردها و کاربردها

شبکه‌های عصبی گراف (GNN) به عنوان ابزارهای دگرگون‌کننده برای تجزیه و تحلیل داده‌های omics تک سلولی، پرداختن به چالش‌هایی مانند ابعاد بالا، پراکندگی و روابط بیولوژیکی غیر اقلیدسی پدید آمده‌اند. این بررسی پیشرفت‌ها را در روش‌های مبتنی بر GNN در سراسر اپی ژنومیک، رونویسی، پروتئومیکس و چند omics ترکیب می‌کند و کاربردها، ابزارها و جهت‌های آینده آنها را برجسته می‌کند.

 

توزیع و رشد مدل‌های مبتنی بر GNN. (الف) گراف دایرهای نسبت شش نوع مختلف GNN را در بررسی نشان می‌دهد. (ب) گراف انفجار آفتاب کاربرد موفق مدل‌های مبتنی بر GNN را در وظایف مختلف در تجزیه و تحلیل داده‌های omics تک سلولی چندگانه نشان می‌دهد.

 

 

 1. چرا GNN برای Omicهای تک سلولی؟

داده‌های تک سلولی ناهمگونی سلولی و دینامیک تنظیمی را به تصویر می‌کشند، اما چالش‌های منحصربه‌فردی را ایجاد می‌کنند:

- ساختار غیر اقلیدسی: شبکه‌های تنظیم کننده ژن، برهمکنش‌های سلول-سلول، و ترکیب کروماتین را نمی‌توان با روش‌های سنتی اقلیدسی مدل‌سازی کرد.

- پراکندگی داده ها: نرخ بالای انصراف (به عنوان مثال scRNA-seq) سیگنال های بیولوژیکی مبهم است.

- پیچیدگی چندوجهی: ادغام لایه های چند omics (به عنوان مثال، دسترسی کروماتین + بیان ژن) به چارچوب های انعطاف پذیر نیاز دارد.

 

GNNها سلول‌ها و ویژگی‌ها را به‌عنوان گره‌ها در نمودارها مدل‌سازی می‌کنند، روابط توپولوژیکی را حفظ می‌کنند و وظایفی مانند انتساب، خوشه‌بندی و استنتاج شبکه نظارتی را امکان‌پذیر می‌کنند [1][2].

 

 2. انواع کلیدی GNN در تجزیه و تحلیل تک سلولی

شش معماری GNN بر تحقیقات تک سلولی تسلط دارند:

- 1. گراف شبکه‌های کانولوشن (GCN): ویژگی‌های گره را با استفاده از پیچشهای طیفی جمع می‌کند.

- 2. GraphSAGE: ویژگی‌های محله را به صورت استقرایی نمونه و جمع می‌کند.

- 3. گراف شبکه‌های توجه (GAT): سهم همسایگان وزن از طریق مکانیسمهای توجه.

- 4. گراف ترانسفورمر (GTN): وابستگی‌های دوربرد را با توجه به خود ثبت کنید.

- 5. رمزگذارهای خودکار گراف (GAE): تعبیه‌های کم بعدی را برای کارهایی مانند کاهش ابعاد یاد بگیرید.

- 6. رمزگذارهای خودکار گراف متغیر (VGAEs): تعبیه‌های احتمالی را برای نمایش‌های قوی معرفی می‌کنند [1][3].

 

 3. برنامه‌های کاربردی در سراسر روش‌های Omics

الف) اپی ژنومیک تک سلولی

- دسترسی کروماتین (scATAC-seq): GNNها شبکه‌های تعامل کروماتین را بازسازی می‌کنند و حالات سلولی کمیاب را شناسایی می‌کنند (به عنوان مثال، scGNN سیگنالهای تنظیم ژن را ادغام می‌کند) [1][2].

- متیلاسیون DNA (scDNAm): مدل ناهمگنی متیلاسیون و روابط دودمان.

- ساختار کروموزوم (scHi-C): استنتاج معماری ژنوم سه بعدی با استفاده از تعبیه‌های گراف فضایی [1].

 

ب) رونویسی تک سلولی

- داده scRNA-seq:

 * انتساب: ابزارهایی مانند scGNN بیان ژن متاثر از حذف را با رمزگذارهای خودکار تکراری بازیابی می‌کنند [2].

 * خوشه بندی: GATها شناسایی نوع سلول را با جمع‌آوری کراف‌های شباهت رونویسی [1] بهبود می‌ بخشند.

- مطالعه موردی: scGNN مسیرهای رشد عصبی مرتبط با بیماری آلزایمر را در 13214 سلول مغزی نشان داد [2].

 

ج) ترانسکریپتومیکس با تفکیک فضایی (SRT)

- مختصات فضایی و بیان ژن را در گراف‌های سلول-سلول برای شناسایی ریزمحیطهای بافتی و ارتباطات سلول-سلول رمزگذاری کنید [1].

 

د) ادغام Multi-Omics

- GLUE: داده‌های چند omics جفت نشده (به عنوان مثال، کروماتین + RNA)) را از طریق گراف‌های دانش و VGAEها یکپارچه می‌کند [3].

- SCALEX: ادغام آنلاین مجموعه داده‌های جدید را بدون آموزش مجدد، با استفاده از رمزگذارهای VAE تعمیم یافته، فعال می‌کند [3].

 

 4. ابزارها و مجموعه داده‌ها

- مجموعه داده‌های محک: 77 مجموعه داده در دسترس عموم شامل scRNA-seq، scATAC-seq و multi-omics [1] است.

- ابزارهای کلیدی:

 * scGNN: GNNها را با مدل‌های گاوسی کوتاه شده چپ برای انتساب و خوشه‌بندی ترکیب می‌کند [2].

 * GLUE/SCALEX: به چالش‌های یکپارچه‌سازی متقابل در چند omics [3] رسیدگی کنید.

 

 5. چالش‌ها

- مقیاسپذیری: پردازش گراف‌های میلیارد لبه (به عنوان مثال، تعاملات کروماتین جهانی) از نظر محاسباتی فشرده است.

- قابلیت تفسیر: GNNهای جعبه سیاه مانع اعتماد در کاربردهای بالینی می‌شوند.

- جلوه‌های دسته‌ای: تنوع فنی در پلتفرم‌های توالی‌یابی یکپارچهسازی را پیچیده می‌کند.

 

 6. مسیرهای آینده

- 1. معماری‌های چندوجهی: GNNها را با ترانسفورمرها برای همترازی متقابل omics ترکیب کنید.

- 2. گراف‌های پویا: تغییرات زمانی را مدل کنید (به عنوان مثال، مسیرهای تمایز).

- 3. هوش‌مصنوعی اخلاقی: دستورالعمل‌هایی برای سوگیری در اولویتبندی نوع سلولی و تجزیه و تحلیل جمعیت نادر ایجاد کنید.

- 4. محک‌گذاری: چارچوب‌هایی مانند IGL-Bench را برای استانداردسازی ارزیابی‌ها گسترش دهید [1][3].

 

نتیجهگیری

GNNها با تبدیل داده‌های پراکنده و با ابعاد بالا به گراف‌های قابل تفسیر بیولوژیکی، انقلابی در omics تک سلولی ایجاد کرده‌اند. از خوشه‌بندی scRNA-seq تا ادغام چند omics، این مدل‌ها از نظر دقت و مقیاس‌پذیری از روش‌های سنتی بهتر عمل می‌کنند. کار آینده باید هوشمصنوعی اخلاقی، ترکیب چندوجهی، و معیارهای قوی را در اولویت قرار دهد تا پتانسیل کامل آنها را در پزشکی دقیق باز کند.

 

Key References: [1] Li et al., Briefings in Bioinformatics (2025). [2] Wang et al., Nature Communications (2021). [3] PMC Review on Multimodal Deep Learning (2023).

 

[1] https://academic.oup.com/bib/article/26/2/bbaf109/8080373

[2] https://www.nature.com/articles/s41467-021-22197-x

[3] https://pmc.ncbi.nlm.nih.gov/articles/PMC10516349/

[4] https://www.biorxiv.org/content/10.1101/2025.03.20.644258v1

[5] https://arxiv.org/pdf/2310.09561.pdf

[6] https://pmc.ncbi.nlm.nih.gov/articles/PMC9919433/

[7] https://arxiv.org/abs/2310.09561

[8] https://github.com/NBISweden/workshop_omics_integration/blob/OMICSINT_H24/session_graphnn/GNN_main.ipynb

[9] https://www.frontiersin.org/articles/10.3389/fgene.2022.1003711/full

[10] https://dl.acm.org/doi/10.1007/s00521-024-09662-6

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد