پیشرفتهای اخیر در فناوریهای توالییابی تک سلولی و چند omics توانایی ما را برای مدلسازی سیستمهای بیولوژیکی متحول کرده است. این بررسی روششناسی، چالشها و کاربردهای مدلهای مولتیومیک مبتنی بر شبکه را ترکیب میکند و بر نقش آنها در کشف ناهمگونی سلولی و مکانیسمهای تنظیمی تأکید میکند.
1. روشهای کلیدی
الف) مدلهای گراف ناهمگن
- DeepMAPS: دادههای scMulti-omics (مانند CITE-seq، scATAC-seq) را در یک گراف ناهمگن با استفاده از یک ترانسفورمر گراف چند راس برای مدلسازی روابط محلی (سلول-ژن) و جهانی (بین سلولی) ادغام میکند. این رویکرد از روشهای سنتی در خوشهبندی سلولی و ساخت شبکههای بیولوژیکی خاص نوع سلولی بهتر عمل میکند [1][7].
- GLUE: یک چارچوب تعبیه یکپارچه مرتبط با گراف که دادههای چند omics تک سلولی جفت نشده (مانند scRNA-seq و scATAC-seq) را با استفاده از گرافهای هدایت شده با دانش (مثلاً تعاملات تنظیمی ژن) یکپارچه میکند. GLUE تعبیههای نهفته را از طریق آموزش خصمانه تراز میکند و تعاملات نظارتی را استنباط میکند [7].
ب) رویکردهای مبتنی بر رمزگذار خودکار
- scMCs: یک چارچوب رمزگذار خودکار متغیر که دادههای رونویسی و اپی ژنتیکی را در یک بازنمایی همکار ادغام میکند و امکان خوشهبندی و انتساب مشترک را فراهم میکند. این خوشه های جایگزین را برای گرفتن حالتهای سلولی متنوع شناسایی میکند [8].
- ماتیلدا: یادگیری چند وظیفهای را با رمزگذارهای خودکار متغیر برای دستهبندی انواع سلول و شناسایی ویژگیهای مولکولی از دادههای چندوجهی از طریق انتساب ویژگی post-hoc ترکیب میکند [5].
ج) شبکههای عصبی گراف (GNN)
- scMGCA: از رمزگذارهای خودکار کانولوشن گراف برای یادگیری تعبیه سلولی از دادههای scRNA-seq و شناسایی نشانگرهای ژن از طریق تجزیه و تحلیل GO post-hoc استفاده میکند [5].
- مدلهای ترکیبی: GNNها را با مدلهای احتمالی برای همترازی متقابل مدال ادغام کنید، مانند پیوند دسترسی کروماتین (scATAC-seq) به بیان ژن [4][6].
2. استراتژیهای یکپارچهسازی
الف) ادغام لنگر
- افقی: دستهها را با استفاده از ویژگیهای مشترک (به عنوان مثال، ژن) تراز می کند تا نویز فنی را حذف کند.
- عمودی: ترکیبی از روشها (مانند scRNA-seq + proteomics) که در یک سلول اندازهگیری میشوند و به فناوریهای ضبط ترکیبی نیاز دارند.
- مورب: با استنتاج فضاهای پنهان مشترک (به عنوان مثال، نسبت دادن مدالیتههای گمشده از طریق یادگیری چندگانه) روشها را از سلولهای مختلف تراز میکند [4].
ب) استنتاج شبکه چند لایه
- شبکههای ترکیبی: تعاملات استنباط شده (به عنوان مثال، بیان مشترک) را با دانش قبلی (مثلاً برهمکنشهای پروتئین-DNA) برای مدلسازی مکانیسمهای تنظیمی ترکیب کنید [3].
- تجزیه و تحلیل پویا: دادههای چند omics طولی با استفاده از شبکههای زمانی مدلسازی میشوند تا روابط علی را کشف کنند (به عنوان مثال، مسیرهای تمایز) [3].
3. برنامههای کاربردی
الف) شناسایی نوع/وضعیت سلول: مدلهایی مانند GLUE و scMCs ناهمگونی سلولی را در بافتهای پیچیده (مانند تومورهای ریه، لنفوم) با ادغام دادههای اپی ژنومیک و ترانسکریپتومی حل میکنند [1][7][8].
ب) استنتاج تنظیمی: چارچوبهای هدایتشده با دانش (به عنوان مثال، GLUE) با پیوند دادن دسترسی کروماتین به بیان ژن، عناصر تنظیمکننده (مانند عوامل رونویسی) را اولویتبندی میکنند [7].
ج) پیشبینی متقابل مدال: رمزگذارهای خودکار (مانند scMM) فراوانی پروتئین را از RNA پیشبینی میکنند یا روشهای گمشده (مانند ATAC-seq → RNA) را نسبت میدهند [6].
4. چالشها
الف) پیچیدگی داده: نویز زیاد، پراکندگی و اثرات دستهای در دادههای تک سلولی نیاز به نرمالسازی قوی دارد (به عنوان مثال، یکپارچهسازی افقی) [4][6].
ب) اعتبارسنجی: حقیقت پایه محدود برای شبکههای استنباط شده، اعتبارسنجی متعامد را ضروری میکند (به عنوان مثال، صفحههای CRISPR) [3][7].
ج) مقیاسپذیری: مجموعه دادههای میلیارد سلولی چارچوبهای توزیعشده را میطلبند (بهعنوان مثال، GNNهای شتابدار GPU) [1][6].
د) تفسیرپذیری: روشهای پس از وقوع (به عنوان مثال، LIME، DeepLIFT) تصمیمات مدل را به ویژگیهای بیولوژیکی (مانند ژنهای نشانگر) پیوند میدهند [5].
5. مسیرهای آینده
الف) چارچوبهای یکپارچه: ترکیب GNNها، ترانسفورمرها و مدلهای احتمالی برای ادغام چند omics جامع.
ب) شبکههای زمانی: مدلسازی تغییرات تنظیمی پویا در طول توسعه یا پیشرفت بیماری [3].
ج) هوشمصنوعی قابل تفسیر: افزایش قابلیت توضیح از طریق استنتاج علی و انتساب ویژگی متناسب با شبکههای بیولوژیکی [5][7].
نتیجهگیری
مدلهای مولتیومیک مبتنی بر شبکه، زیستشناسی تک سلولی را با ادغام دادههای ناهمگن در چارچوبهای قابل تفسیر تغییر میدهند. در حالی که چالشهایی مانند مقیاسپذیری و اعتبارسنجی همچنان ادامه دارد، نوآوریها در یادگیری گراف، رمزگذارهای خودکار و استراتژیهای یکپارچهسازی ترکیبی، بینشهای جدیدی را در مورد عملکرد سلولی و مکانیسمهای بیماری باز میکنند. پیشرفتهای آینده به پل زدن روشهای محاسباتی با اعتبارسنجی تجربی برای ساخت مدلهای پیشبینیکننده و مبتنی بر بیولوژیکی بستگی دارد.
منابع:
[1] https://www.nature.com/articles/s41467-023-36559-0
[2] https://www.nature.com/articles/s41580-023-00615-w
[3] https://pmc.ncbi.nlm.nih.gov/articles/PMC8934642/
[4] https://arxiv.org/html/2503.09568v1
[5] https://pmc.ncbi.nlm.nih.gov/articles/PMC11211213/
[6] https://pmc.ncbi.nlm.nih.gov/articles/PMC10516349/
[7] https://www.nature.com/articles/s41587-022-01284-4
[8] https://academic.oup.com/bioinformatics/article/39/4/btad133/7079796
[9] https://arxiv.org/abs/2503.09568