بررسی روش یادگیری انتقالی جهت پیش‌بینی پیوند

چکیده - پیش‌بینی پیوند در بسیاری از برنامه‌های کاربردی مانند سیستم‌های توصیه یک روش کلیدی است، در پیوندهای بالقوه بین کاربران و آیتم‌ها نیاز به پیش‌بینی وجود دارد. چالش اصلی در پیش‌بینی پیوند مسئله پراکندگی داده است. در این مقاله، ما به این مسئله می‌پردازیم با در نظر گرفتن چندین وظایف پیش‌بینی پیوند ناهمگن مانند پیش‌بینی پیوندهای بین کاربران و انواع مختلف موارد از جمله کتاب، فیلم و آهنگ، مسئله پیش‌بینی پیوند جمعی (CLP) می‌پردازیم. برای حل مسئله CLP چارچوبی غیرپارامتری بیزی را پیشنهاد می‌کنیم که امکان انتقال دانش را در طول انجام وظایف ناهمگن بین وظایف و شباهت بین-کارها را به صورت خودکار یاد بگیرد را می‌دهد. ما همچنین توابع پیوند را برای وظایف مختلف برای اصلاح سوگیری و انحراف آنها از توزیع در داده‌های پیوند آنها معرفی می‌کنیم.

در سال‌های اخیر در بسیاری از زمینه‌ها مدل‌سازی داده‌های رابطه‌ای مانند تجزیه و تحلیل شبکه‌های اجتماعی، زیست‌شناسی محاسباتی[1] و سیستم‌های توصیه‌گر در حال رشد بوده است. در این مقاله، ما بر روی مدل‌سازی داده‌های رابطه‌ای تمرکز می‌کنیم: پیش‌بینی پیوند، با پیش‌بینی اینکه آیا دو موجودیت روابط مشخصی دارند یا خیر نگران کننده است. بسیاری از برنامه‌های کاربردی مهم را می‌توان به صورت مشکلات پیش‌بینی پیوند انتخاب نمود. به عنوان مثال، توصیه‌های شخصی‌سازی شده و تبلیغات هدفمند شامل پیش‌بینی پیوندهای بالقوه بین کاربران و محصولات / تبلیغات[2] بر اساس پیوندهای مشاهده شده در فرم خریدهای قبلی کاربران یا کلیک‌هاست. یک مسئله اساسی که بسیاری از کارهای پیش‌بینی پیوند در دنیای واقعی[3] با آن روبرو هستند، مسئله پراکندگی داده‌ها[4] است، که در بسیاری از موارد بین آنهائی که پیوندی ندارند اتفاق می‌افتد. به عنوان مثال، در برنامه‌های سیستم پیشنهادی، اکثر کاربران فقط تعداد بسیار کمی از موارد را ارزیابی می‌کنند. در نتیجه، تعداد زیادی از موارد در دم طولانی[5] وجود دارد فقط چند بار رتبه بندی کرد. این مسئله پراکندگی می‌تواند حتی برای کاربران جدید و موارد جدید حتی شدیدتر باشد، مسئله‌ائی که به عنوان شروع-سرد[6] نیز شناخته می‌شود ایجاد می‌کند. در این مقاله، ما بر روی چگونگی حل مسئله پراکندگی-داده‌ها[7] با در نظر گرفتن یک فرمول پیش‌بینی پیوند جمعی[8] (CLP) تمرکز می‌کنیم، که به طور مشترک یک مجموعه‌ای از وظایف پیش‌بینی پیوند ناشی از چند دامنه‌ی ناهمگن[9] را مدل می‌کند. پیش‌بینی پیوند جمعی مخصوصاً برای تجارت الکترونیکی[10] مقیاس بزرگ[11] و خدمات شبکه‌های اجتماعی، که اغلب طیف متنوعی از محصولات را ارائه می‌دهند یا خدمات و دسته‌بندی‌های مختلف محصول / خدمات مانند کتاب، لباس، وسایل الکترونیکی به طور طبیعی حوزه‌های مختلفی را تشکیل می‌دهند مناسب است. با کاوش در همبستگی[12] بین وظایف پیش‌بینی پیوند در دامنه‌های مختلف، می‌توان دانش مشترک را در میان کارهای مشابه برای کاهش مسئله پراکندگی داده‌های مرتبط با وظایف فردی و در نتیجه بهبود عملکرد همه وظایف انتقال دهد.

ما یک چارچوب غیرپارامتری بیزی را برای پیش‌بینی پیوند جمعی با ایجاد یک پسوند چند وظیفه‌ای از مدل متغیر-پنهان[13] فرآیند-گوسی[14] پیشنهاد می‌دهیم (لارنس[15]، 2003). در مدل پیش‌بینی پیوند جمعی دو چالش عمده وجود دارد که در کار قبلی در مورد پیش‌بینی پیوند مورد توجه قرار نگرفته است. اولین چالش درجات مختلف ارتباط بین حوزه‌های وظیفه ناهمگن است، که ما مایل به انتقال دانش آنها در حوزه‌های یادگیری هدف هستیم. به عنوان مثال، وظیفه پیش‌بینی تنظیمات برگزیده کاربر روی کتاب‌ها باید بیشتر مربوط به پیش‌بینی تنظیمات کاربر در فیلم‌ها نسبت به ترجیحات کاربر روی غذا باشد. از آنجا که همه وظایف به یک اندازه با هم مرتبط نیستند، باید شباهت‌های مشترک وظایف را در مدل برای این منظور را در نظر بگیریم، ما هسته تشابه وظایف را در مدل ترکیب می‌کنیم، که داده‌ها برای انتقال سازگار دانش بین وظایف ناهمگن به صورت خودکار است. چالش دوم از توزیع انحرافی[16] اکثر داده‌های پیوند در دنیای واقعی[17] ناشی می‌شود. به عنوان مثال، وقتی داده پیوند درمورد رتبه‌بندی کاربر تشکیل شده باشد، مقدار رتبه‌بندی مثبت اغلب به طور قابل توجهی از مقدار رتبه‌بندی منفی بیشتر است، از آنجایی که کاربران مواردی که دوست ندارند را ارزیابی نمی‌کنند. برای مدل‌های فرایند گاوسی، چنین توزیع‌های نامتوازنی فرض توزیع داده را نقض می‌کنند. برای اصلاح سوگیری و انحراف توزیع‌های داده‌های پیوند و مدیریت انواع پیوندهای ناهمگن، ما همچنین یک خانواده خاص از توابع پیوند را برای پیش‌بینی پیوند جمعی معرفی می‌کنیم. ما روی چندین مجموعه داده واقعی در دنیای-واقعی از چندین حوزه ناهمگن آزمایشاتی انجام می‌دهیم و در چندین آزمایش اثربخشی حالت پیشنهادی خود را نشان می‌دهیم.

[1] Computational Biology

[2] Products/Advertisements

[3] Real-World

[4] Data Sparsity

[5] Long Tail

[6] Cold-Start

[7] Data-Sparsity

[8] Collective Link

[9] Multiple Heterogeneous Domains

[10] E-Commerce

[11] Large Scale

[12] Correlation

[13] Latent-Variable

[14] Gaussion-Process

[15] Lawrence

[16] Skewed Distributions

[17] Real-World

علی روحانی فر چهارشنبه 27 مهر 1401 ساعت 00:19

GML (Graph Machine Learning)

GML (Graph Machine Learning)

درباره من