GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

داده‌های مولکولی و پروتئینی

داده‌های مولکولی و پروتئینی در زمینه‌هایی مانند کشف دارو، علم مواد و بیوتکنولوژی حیاتی هستند. ترانسفورمرهای گراف (GTs) با در نظر گرفتن مولکول‌ها به عنوان گراف، که در آن اتم‌ها گره و پیوندها لبه هستند، پتانسیل قابل توجهی در پردازش این نوع داده‌ها نشان داده‌اند. در اینجا یک نمای کلی از نحوه اعمال GTها به داده‌های مولکولی و پروتئینی آورده شده است:

 

کاربردهای ترانسفورمرهای گراف در داده‌های مولکولی

(1) پیش‌بینی خواص مولکولی:

 - GTها برای پیش‌بینی خواص مولکولی مانند حلالیت، چربی دوستی و زیست فعالی استفاده می‌شوند. آنها با گرفتن وابستگی‌های دوربرد بین اتم‌ها و گنجاندن دانش شیمیایی در مدل‌های خود از روش‌های سنتی بهتر عمل می‌کنند [1][2][3].

 - مدل‌هایی مانند ترانسفورمر گراف مولکولی هدایت‌شده با شیمی و ترانسفورمر گراف ناهمگن با محدودیت فارماکوفریک (PharmHGT) پیش‌بینی‌ها را با ادغام نقوش شیمیایی و اطلاعات واکنش افزایش می‌دهند [1][3].

  

 

(2) کشف دارو:

 - GTها با پیش‌بینی فعل و انفعالات دارو-هدف و شناسایی ترکیبات بالقوه سرب به کشف دارو کمک می‌کنند. توانایی آنها در مدل‌سازی ساختارها و برهمکنش‌های مولکولی پیچیده در این فرآیند بسیار ارزشمند است [4][5].

 - مدل‌های از پیش آموزش دیده مانند MPCD (ترانسفورمر گراف چند وظیفه‌ای) را می‌توان برای کارهای خاصی مانند پیش‌بینی ADMET (جذب، توزیع، متابولیسم، دفع و سمیت) تنظیم کرد [4].

 

(3) علم مواد: در حالی که کمتر از زیست‌شناسی مولکولی کاوش شده است، GTها به طور بالقوه می‌توانند برای پیش‌بینی خواص مواد با مدل‌سازی برهمکنش‌ها و ساختارهای اتمی استفاده شوند.

 

تکنیک‌های مورد استفاده در ترانسفورمرهای گراف مولکولی

(1) تعبیه فضایی مبتنی بر موتیف: این تکنیک شامل کدگذاری موتیف مولکولی (به عنوان مثال، حلقه‌های معطر) در گراف می‌شود تا درک مدل از ساختارهای شیمیایی را افزایش دهد [1].

(2) خودتوجهی چند مقیاسی هدایت‌شده از راه دور: این رویکرد به GTها اجازه می‌دهد تا بر مقیاس‌های مختلف برهمکنش‌های مولکولی، از پیوندهای محلی گرفته تا اثرات دوربرد تمرکز کنند و قدرت پیش‌بینی خود را بهبود بخشند [1].

(3) محدودیت‌های فارماکوفوریک: ترکیب اطلاعات فارماکوفور به GTها کمک می‌کند تا برهمکنش‌های گروه عملکردی و واکنش‌های شیمیایی را که برای پیش‌بینی خواص مولکولی حیاتی هستند، ثبت کنند.

 

چالش‌ها و جهت‌گیری‌های آینده

(1) کیفیت و در دسترس بودن داده‌ها: مجموعه داده‌های برچسب‌گذاری شده با کیفیت بالا اغلب در وظایف پیش‌بینی ویژگی مولکولی محدود هستند. تکنیک‌هایی مانند یادگیری نیمه نظارت شده و پیش‌آموزش در مجموعه داده‌های بزرگ بدون برچسب برای مقابله با این چالش در حال بررسی هستند [2][4].

(2) تفسیرپذیری: درک اینکه چگونه GT ها پیش بینی می کنند برای کشف دارو بسیار مهم است. توسعه مدل‌های قابل تفسیر بیشتر که ویژگی‌های مولکولی کلیدی را که به پیش‌بینی‌ها کمک می‌کنند برجسته می‌کنند، یک حوزه فعال تحقیق است.

(3) ادغام با روش‌های دیگر: کار آینده ممکن است شامل یکپارچه‌سازی GTs با سایر انواع داده‌ها (به عنوان مثال، داده‌های ژنومی یا پروتئومی) برای افزایش قابلیت‌های پیش‌بینی در سیستم‌های بیولوژیکی پیچیده باشد.

 

نتیجه‌گیری

گراف ترانسفورمرها با استفاده از ساختارهای گراف برای مدل سازی برهمکنش‌های شیمیایی پیچیده، نوید قابل توجهی را در پردازش داده‌های مولکولی نشان داده اند. توانایی آن‌ها در ترکیب دانش شیمیایی و جذب وابستگی‌های دوربرد، آنها را برای کارهایی مانند پیش‌بینی خواص مولکولی و کشف دارو بسیار مؤثر می‌سازد. با این حال، چالش‌هایی مانند در دسترس بودن داده‌ها و تفسیرپذیری مدل، زمینه‌های مهمی برای تحقیقات آینده باقی می‌مانند.


[1] https://openreview.net/pdf?id=Us3TminqU8v

[2] https://ml4molecules.github.io/papers2020/ML4Molecules_2020_paper_27.pdf

[3] https://www.nature.com/articles/s42004-023-00857-x

[4] https://pubs.acs.org/doi/10.1021/acs.jmedchem.4c02193

[5] https://pubs.acs.org/doi/10.1021/acs.jcim.4c01092

[6] https://arxiv.org/abs/2404.03969

[7] https://arxiv.org/abs/2309.00483

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد