یادگیری عمیق بر روی گرافها، همچنین به عنوان یادگیری عمیق هندسی (GDL) [1]، یادگیری بازنمایی گراف (GRL)، یا سوگیریهای استقرایی رابطهای، اخیراً به یکی از داغترین موضوعات در یادگیری ماشین تبدیل شده است. در حالی که کارهای اولیه در زمینه یادگیری گراف حداقل به یک دهه قبل برمیگردد [۳، ۲]، بدون شک این پیشرفت چند سال گذشته است که این روشها را از جایگاه ویژهای در کانون توجه جامعه یادگیری ماشین (ML) قرار داده است.
گرافها انتزاعات ریاضی قدرتمندی هستند که میتوانند سیستمهای پیچیدهای از روابط و تعاملات را در زمینههایی از زیستشناسی و فیزیک گرفته تا علوم اجتماعی و اقتصاد توصیف کنند. از آنجایی که امروزه حجم دادههای ساختاریافته گراف تولید شده در برخی از این زمینهها بسیار زیاد است (نمونههای بارز آن شبکههای اجتماعی مانند توییتر و فیسبوک)، بسیار وسوسهانگیز است که سعی کنیم تکنیکهای یادگیری عمیق را بهکار ببریم که بهطور قابلتوجهی در تنظیمات سایر منابع غنی از داده موفق بودهاند.
چندین حالت برای مسائل یادگیری گراف وجود دارد که تا حد زیادی وابسته به کاربرد هستند. یک دوگانگی بین مسائل گره و گراف است، که در آن اولی سعی میکند ویژگیهای گرههای جداگانه را در گراف پیشبینی کند (به عنوان مثال، شناسایی کاربران مخرب در یک شبکه اجتماعی)، در حالی که در دومی سعی میکند کل گراف را پیشبینی کند. (به عنوان مثال، حلالیت یک مولکول را پیشبینی کنید). علاوه بر این، مانند مسائل سنتی ML، ما میتوانیم بین تنظیمات نظارت شده و بدون نظارت (یا خود نظارتی) و همچنین مسائل انتقالی (Transductive) و استقرایی (Inductive) تمایز قائل شویم.
مشابه شبکههای عصبی کانولوشنال مورد استفاده در تحلیل تصویر و بینایی کامپیوتری، کلید یادگیری کارآمد بر روی گرافها، طراحی عملیات محلی با وزنهای مشترک است که انتقال پیام را بین هر گره و همسایگانش انجام میدهد [۶]. یک تفاوت عمده در مقایسه با شبکههای عصبی عمیق کلاسیک که با دادههای ساختاری شبکه سروکار دارند، این است که در گرافها، چنین عملیاتهایی تغییرناپذیر هستند، یعنی مستقل از ترتیب گرههای همسایه، زیرا هیچ روش متعارفی برای ترتیب دادن آنها وجود ندارد.
در ادامه نظرات خود را در مورد دلایل احتمالی و چگونگی پیشرفت این رشته در چند سال آینده بیان خواهم کرد.
معیارهای استاندارد شده مانند ImageNet مطمئناً یکی از عوامل کلیدی موفقیت یادگیری عمیق در بینایی کامپیوتر بودند، برخی حتی استدلال میکنند که دادهها برای انقلاب یادگیری عمیق مهمتر از الگوریتمها هستند [۴]. ما هنوز چیزی شبیه به ImageNet در مقیاس و پیچیدگی در جامعه یادگیری گراف نداریم. Open Graph Benchmark، شاید اولین تلاش برای رسیدن به این هدف باشد.
مقیاسپذیری یکی از عوامل کلیدی محدودکننده برنامههای صنعتی است که اغلب باید با گرافهای بسیار بزرگ (به شبکه اجتماعی توییتر با صدها میلیون گره و میلیاردها لبه فکر کنید) و محدودیتهای تأخیر (Low Latency) کم سر و کار دارند. جامعه پژوهشی دانشگاهی تا همین اواخر تقریباً این جنبه را نادیده میگرفت، با بسیاری از مدلهایی که در ادبیات توصیف شدهاند برای تنظیمات در مقیاس بزرگ کاملاً ناکافی هستند. علاوه بر این، سختافزار گرافیکی (GPU)، که ترکیب موفق آن با معماریهای یادگیری عمیق کلاسیک یکی از نیروهای اصلی محرک موفقیت متقابل آنها بود، لزوماً بهترین گزینه برای گرافها نیست. به سخت افزار تخصصی برای گرافها نیازمندیم.
گرافهای پویا جنبه دیگری است که به ندرت در ادبیات به آن پرداخته شده است. در حالی که گرافها روشی متداول برای مدلسازی سیستمهای پیچیده هستند، چنین انتزاعی اغلب بسیار ساده است زیرا سیستمهای دنیای واقعی پویا هستند و در زمان تکامل مییابند. گاهی اوقات این رفتار زمانی است که بینشهای مهمی را در مورد سیستم ارائه میدهد. علیرغم برخی پیشرفتهای اخیر، طراحی مدلهای شبکه عصبی گراف که قادر به برخورد کارآمد با گرافهای زمان پیوسته هستند که بهعنوان جریانی از رویدادهای گره یا لبه نشان داده میشوند، هنوز یک سؤال تحقیقاتی باز است.
ساختارهای مرتبه بالاتر مانند موتیفها، گرافلها یا کمپلکسهای ساده در شبکههای پیچیده مهم هستند، به عنوان مثال، توصیف تعاملات پروتئین-پروتئین در کاربردهای بیولوژیکی. با این حال، اکثر شبکههای عصبی گراف فقط به گرهها و لبهها محدود میشوند. گنجاندن چنین ساختارهایی در مکانیزم ارسال پیام میتواند قدرت بیان بیشتری را به مدلهای مبتنی بر گراف بیاورد.
درک نظری از بیان شبکههای عصبی گراف نسبتاً محدود است. معمولاً مشاهده هر دو افزایش چشمگیر در عملکرد ناشی از استفاده از شبکههای عصبی گراف در برخی تنظیمات و تقریباً هیچ تفاوتی در برخی دیگر نیست. هنوز مشخص نیست که چه زمانی و چرا شبکههای عصبی گراف به خوبی کار میکنند. مسئله دشوار است زیرا باید هم ساختار گراف زیربنایی و هم دادههای موجود در آن را در نظر گرفت. برای مسائل دستهبندی گراف، کارهای اخیر نشان داد که شبکههای عصبی گراف معادل آزمون همشکلی گراف Weisfeiler-Lehman [۵]، یک اکتشافی برای حل یک مسئله کلاسیک در نظریه گراف است. این فرمالیسم روشن میکند که چرا، برای مثال، شبکههای عصبی گراف در نمونههایی از گرافهای غیرهمشکل که با این آزمون ساده قابل تشخیص نیستند، شکست میخورند. فراتر رفتن از سلسله مراتب تستهای Weisfeiler-Lehman در حالی که پیچیدگی خطی پایینی که شبکههای عصبی گراف را بسیار جذاب میکند، یک سوال تحقیقاتی باز است.
منابع
[1] M. Bronstein et al., Geometric deep learning: going beyond Euclidean data, IEEE Signal Processing Magazine 34(4):18-42, 2017, DOI: 10.1109/MSP.2017.2693418.
[2] F. Scarselli et al., The graph neural network model, IEEE Transactions on Neural Networks 20(1):61-80, 2008, DOI: 10.1109/TNN.2008.2005605.
[3] A. Küchler and C. Goller, Inductive learning in symbolic domains using structure-driven recurrent neural networks, Proc. Künstliche Intelligenz, 1996.
[4] A. Wissner-Gross, Datasets over algorithms, 2016.
[5] K. Xu et al., How powerful are graph neural networks? ICLR 2019.
[6] J. Gilmer et al., Neural message passing for quantum chemistry, ICML 2017.