دادههای مولکولی و پروتئینی در زمینههایی مانند کشف دارو، علم مواد و بیوتکنولوژی حیاتی هستند. ترانسفورمرهای گراف (GTs) با در نظر گرفتن مولکولها به عنوان گراف، که در آن اتمها گره و پیوندها لبه هستند، پتانسیل قابل توجهی در پردازش این نوع دادهها نشان دادهاند. در اینجا یک نمای کلی از نحوه اعمال GTها به دادههای مولکولی و پروتئینی آورده شده است:
کاربردهای ترانسفورمرهای گراف در دادههای مولکولی
(1) پیشبینی خواص مولکولی:
- GTها برای پیشبینی خواص مولکولی مانند حلالیت، چربی دوستی و زیست فعالی استفاده میشوند. آنها با گرفتن وابستگیهای دوربرد بین اتمها و گنجاندن دانش شیمیایی در مدلهای خود از روشهای سنتی بهتر عمل میکنند [1][2][3].
- مدلهایی مانند ترانسفورمر گراف مولکولی هدایتشده با شیمی و ترانسفورمر گراف ناهمگن با محدودیت فارماکوفریک (PharmHGT) پیشبینیها را با ادغام نقوش شیمیایی و اطلاعات واکنش افزایش میدهند [1][3].
(2) کشف دارو:
- GTها با پیشبینی فعل و انفعالات دارو-هدف و شناسایی ترکیبات بالقوه سرب به کشف دارو کمک میکنند. توانایی آنها در مدلسازی ساختارها و برهمکنشهای مولکولی پیچیده در این فرآیند بسیار ارزشمند است [4][5].
- مدلهای از پیش آموزش دیده مانند MPCD (ترانسفورمر گراف چند وظیفهای) را میتوان برای کارهای خاصی مانند پیشبینی ADMET (جذب، توزیع، متابولیسم، دفع و سمیت) تنظیم کرد [4].
(3) علم مواد: در حالی که کمتر از زیستشناسی مولکولی کاوش شده است، GTها به طور بالقوه میتوانند برای پیشبینی خواص مواد با مدلسازی برهمکنشها و ساختارهای اتمی استفاده شوند.
تکنیکهای مورد استفاده در ترانسفورمرهای گراف مولکولی
(1) تعبیه فضایی مبتنی بر موتیف: این تکنیک شامل کدگذاری موتیف مولکولی (به عنوان مثال، حلقههای معطر) در گراف میشود تا درک مدل از ساختارهای شیمیایی را افزایش دهد [1].
(2) خودتوجهی چند مقیاسی هدایتشده از راه دور: این رویکرد به GTها اجازه میدهد تا بر مقیاسهای مختلف برهمکنشهای مولکولی، از پیوندهای محلی گرفته تا اثرات دوربرد تمرکز کنند و قدرت پیشبینی خود را بهبود بخشند [1].
(3) محدودیتهای فارماکوفوریک: ترکیب اطلاعات فارماکوفور به GTها کمک میکند تا برهمکنشهای گروه عملکردی و واکنشهای شیمیایی را که برای پیشبینی خواص مولکولی حیاتی هستند، ثبت کنند.
چالشها و جهتگیریهای آینده
(1) کیفیت و در دسترس بودن دادهها: مجموعه دادههای برچسبگذاری شده با کیفیت بالا اغلب در وظایف پیشبینی ویژگی مولکولی محدود هستند. تکنیکهایی مانند یادگیری نیمه نظارت شده و پیشآموزش در مجموعه دادههای بزرگ بدون برچسب برای مقابله با این چالش در حال بررسی هستند [2][4].
(2) تفسیرپذیری: درک اینکه چگونه GT ها پیش بینی می کنند برای کشف دارو بسیار مهم است. توسعه مدلهای قابل تفسیر بیشتر که ویژگیهای مولکولی کلیدی را که به پیشبینیها کمک میکنند برجسته میکنند، یک حوزه فعال تحقیق است.
(3) ادغام با روشهای دیگر: کار آینده ممکن است شامل یکپارچهسازی GTs با سایر انواع دادهها (به عنوان مثال، دادههای ژنومی یا پروتئومی) برای افزایش قابلیتهای پیشبینی در سیستمهای بیولوژیکی پیچیده باشد.
نتیجهگیری
گراف ترانسفورمرها با استفاده از ساختارهای گراف برای مدل سازی برهمکنشهای شیمیایی پیچیده، نوید قابل توجهی را در پردازش دادههای مولکولی نشان داده اند. توانایی آنها در ترکیب دانش شیمیایی و جذب وابستگیهای دوربرد، آنها را برای کارهایی مانند پیشبینی خواص مولکولی و کشف دارو بسیار مؤثر میسازد. با این حال، چالشهایی مانند در دسترس بودن دادهها و تفسیرپذیری مدل، زمینههای مهمی برای تحقیقات آینده باقی میمانند.
[1] https://openreview.net/pdf?id=Us3TminqU8v
[2] https://ml4molecules.github.io/papers2020/ML4Molecules_2020_paper_27.pdf
[3] https://www.nature.com/articles/s42004-023-00857-x
[4] https://pubs.acs.org/doi/10.1021/acs.jmedchem.4c02193
[5] https://pubs.acs.org/doi/10.1021/acs.jcim.4c01092
[6] https://arxiv.org/abs/2404.03969