یادگیری نامتعادل در گرافها به چالشهای ناشی از توزیع دادههای اریب در دادههای ساختاریافته گراف میپردازد، که منجر به عملکرد مدل مغرضانه میشود. این زمینه تجزیه و تحلیل گراف و استراتژیهای کاهش عدم تعادل را برای افزایش انصاف و دقت در کارهایی مانند دستهبندی گره، پیشبینی پیوند و دستهبندی گراف ادغام میکند. در زیر یک ترکیب ساختار یافته از بینشهای کلیدی از تحقیقات اخیر آمده است:
1. دستهبندی مسائل
عدم تعادل در دادههای گراف به دو شکل اصلی ظاهر میشود:
1. عدم تعادل طبقاتی: توزیعهای طبقاتی منحرف که در آن طبقات اقلیت (مانند بیماریهای نادر در شبکههای زیست پزشکی) کمتر ارائه میشوند. به عنوان مثال، در کشف تقلب، تراکنشهای متقلبانه (اقلیت) بسیار بیشتر از تراکنشهای قانونی هستند [2][5].
2. عدم تعادل توپولوژی: الگوهای ساختاری ناهموار، مانند درجات متغیر گره یا توزیع های فرعی، که مدل های یادگیری گراف را به سمت گرهها یا لبههای با منابع بالا سوگیری میکنند [3،7].
وظایف تحت تأثیر:
- دستهبندی گره: مدلها با کلاسهای اکثریت (مثلاً دستههای محصول محبوب در سیستمهای توصیه) مطابقت دارند [1][4].
- پیشبینی پیوند: روابط در مناطق پراکنده (به عنوان مثال، تعاملات نادر در شبکههای اجتماعی) به خوبی پیشبینی نشده است [6].
- دستهبندی گراف: الگوهای گراف نادر (به عنوان مثال، ساختارهای مولکولی خاص) نادیده گرفته میشوند [7].
۲. تکنیکها و راهحلها
روشهای سطح داده
- نمونهگیری مجدد:
* نمونهبرداری بیش از حد: نمونههای اقلیت مصنوعی را تولید میکند (به عنوان مثال GraphSMOTE [۶]) اما خطر ایجاد نویز را به همراه دارد.
* نمونهبرداری کم: اکثر نمونهها را کاهش میدهد اما ممکن است ویژگیهای حیاتی را از دست بدهد [2].
- افزایش گراف: توپولوژی را از طریق جمع/حذف یال یا تولید زیرگراف متعادل میکند [1][7].
روشهای سطح الگوریتم
- مهندسی تابع تلفات:
* کمینهسازی آنتروپی مختلط (GraphME): تابع ضرر را تنظیم میکند تا دستهبندیهای اشتباه در کلاسهای اقلیت را به شدت جریمه کند و عملکرد مجموعه دادههای نامتعادل مانند BlogCatalog [2] را بهبود بخشد.
* یادگیری حساس به هزینه: وزن های بالاتری را به کلاسهای اقلیت در طول تمرین اختصاص میدهد [5][7].
- یادگیری گروهی: چندین مدل را برای کاهش تعصب ترکیب می کند (به عنوان مثال، DR-GCN [6])
روشهای ترکیبی
- ادغام نمونهگیری مجدد دادهها با تنظیمات الگوریتمی. به عنوان مثال، ImGAGN از GANها برای سنتز گرههای اقلیت و در عین حال حفظ توپولوژی گراف استفاده میکند [6].
۳. چالشها
- مقیاسپذیری: مدیریت کارآمد گرافهای میلیارد لبه (به عنوان مثال، شبکههای اجتماعی جهانی) از نظر محاسباتی فشرده است [1][3].
- تعمیم: تکنیکها اغلب به مجموعه دادههای خاص بیش از حد منطبق میشوند و کاربرد بین دامنه را محدود میکنند [7].
- شکافهای ارزیابی: فقدان معیارهای استاندارد شده منجر به مقایسههای متناقض شد تا اینکه IGL-Bench پروتکلهای یکسانی را در 17 مجموعه داده و 24 الگوریتم معرفی کرد [3].
4. مسیرهای آینده
1. دستهبندی فراتر از گره: تحقیق را به وظایف سطح گراف (به عنوان مثال، دستهبندی کل گراف) و گرافهای پویا گسترش دهید [7].
2. استحکام: روشهایی را توسعه دهید که در برابر حملات متخاصم و دادههای نویز مقاوم باشند [1،3].
3. تکنیکهای آگاه از توپولوژی: به عدم تعادل ساختاری (مثلاً ناهمگونی) از طریق مکانیسمهای انتقال پیام تطبیقی [7] رسیدگی کنید.
4. هوش مصنوعی اخلاقی: تعصبات را در برنامههای پرمخاطب مانند مراقبتهای بهداشتی یا عدالت کیفری کاهش دهید [2][5].
5. محک زدن: IGL-Bench را برای گنجاندن وظایف بیشتر (مثلاً پیشبینی پیوند) و گرافهای زمانی گسترش دهید [3].
5. معیارها و ابزارهای کلیدی
- IGL-Bench: یک معیار جامع ارزیابی 24 الگوریتم در مورد اثربخشی، استحکام، و کارایی در نمودارهای نامتعادل با کلاس و توپولوژی [3].
- GraphSMOTE/ImGAGN: پیاده سازی منبع باز برای تولید گره مصنوعی [6].
نتیجهگیری
یادگیری نامتعادل در گرافها برای استقرار سیستمهای AI گراف منصفانه و دقیق بسیار مهم است. در حالی که تکنیکهایی مانند GraphME و نمونهگیری مجدد ترکیبی امیدوارکننده هستند، چالشها در مقیاسپذیری و ارزیابی همچنان وجود دارد. کار آینده باید معیارهای استاندارد شده، ملاحظات اخلاقی، و گسترش دامنه به وظایفی که مطالعه نشده است را در اولویت قرار دهد. تلاشهای مشترک بین دانشگاه و صنعت منجر به نوآوری در این زمینه در حال تحول خواهد شد.
References
[1] Liu et al., *A Survey of Imbalanced Learning on Graphs* (2023).
[2] *Imbalanced Graph Learning via Mixed Entropy Minimization* (Nature, 2024).
[3] Qin et al., *IGL-Bench* (ICLR 2025).[4] *Class-Imbalanced Learning on Graphs: A Survey* (arXiv, 2023).
[5] *Class-Imbalanced Learning on Graphs* (Ma et al., 2023).
[6] *GraphSMOTE/ImGAGN* (Zhao et al., 2021; Qu et al., 2021).
[7] *Future Directions in CILG* (Ma et al., 2023).
[1] https://arxiv.org/pdf/2308.13821.pdf
[2] https://www.nature.com/articles/s41598-024-75999-6
[3] https://openreview.net/forum?id=uTqnyF0JNR
[4] https://arxiv.org/abs/2308.13821
[5] https://arxiv.org/pdf/2304.04300.pdf
[6] https://arxiv.org/pdf/2503.01900.pdf
[7] https://www3.nd.edu/~dial/publications/ma2023imb.pdf
[8] https://arxiv.org/abs/2502.08960
[10] https://openreview.net/forum?id=bCNYFOaWsy¬eId=TPSR9hyrgl