چکیده - پیشبینی پیوند در بسیاری از برنامههای کاربردی مانند سیستمهای توصیه یک روش کلیدی است، در پیوندهای بالقوه بین کاربران و آیتمها نیاز به پیشبینی وجود دارد. چالش اصلی در پیشبینی پیوند مسئله پراکندگی داده است. در این مقاله، ما به این مسئله میپردازیم با در نظر گرفتن چندین وظایف پیشبینی پیوند ناهمگن مانند پیشبینی پیوندهای بین کاربران و انواع مختلف موارد از جمله کتاب، فیلم و آهنگ، مسئله پیشبینی پیوند جمعی (CLP) میپردازیم. برای حل مسئله CLP چارچوبی غیرپارامتری بیزی را پیشنهاد میکنیم که امکان انتقال دانش را در طول انجام وظایف ناهمگن بین وظایف و شباهت بین-کارها را به صورت خودکار یاد بگیرد را میدهد. ما همچنین توابع پیوند را برای وظایف مختلف برای اصلاح سوگیری و انحراف آنها از توزیع در دادههای پیوند آنها معرفی میکنیم.
در سالهای اخیر در بسیاری از زمینهها مدلسازی دادههای رابطهای مانند تجزیه و تحلیل شبکههای اجتماعی، زیستشناسی محاسباتی[1] و سیستمهای توصیهگر در حال رشد بوده است. در این مقاله، ما بر روی مدلسازی دادههای رابطهای تمرکز میکنیم: پیشبینی پیوند، با پیشبینی اینکه آیا دو موجودیت روابط مشخصی دارند یا خیر نگران کننده است. بسیاری از برنامههای کاربردی مهم را میتوان به صورت مشکلات پیشبینی پیوند انتخاب نمود. به عنوان مثال، توصیههای شخصیسازی شده و تبلیغات هدفمند شامل پیشبینی پیوندهای بالقوه بین کاربران و محصولات / تبلیغات[2] بر اساس پیوندهای مشاهده شده در فرم خریدهای قبلی کاربران یا کلیکهاست. یک مسئله اساسی که بسیاری از کارهای پیشبینی پیوند در دنیای واقعی[3] با آن روبرو هستند، مسئله پراکندگی دادهها[4] است، که در بسیاری از موارد بین آنهائی که پیوندی ندارند اتفاق میافتد. به عنوان مثال، در برنامههای سیستم پیشنهادی، اکثر کاربران فقط تعداد بسیار کمی از موارد را ارزیابی میکنند. در نتیجه، تعداد زیادی از موارد در دم طولانی[5] وجود دارد فقط چند بار رتبه بندی کرد. این مسئله پراکندگی میتواند حتی برای کاربران جدید و موارد جدید حتی شدیدتر باشد، مسئلهائی که به عنوان شروع-سرد[6] نیز شناخته میشود ایجاد میکند. در این مقاله، ما بر روی چگونگی حل مسئله پراکندگی-دادهها[7] با در نظر گرفتن یک فرمول پیشبینی پیوند جمعی[8] (CLP) تمرکز میکنیم، که به طور مشترک یک مجموعهای از وظایف پیشبینی پیوند ناشی از چند دامنهی ناهمگن[9] را مدل میکند. پیشبینی پیوند جمعی مخصوصاً برای تجارت الکترونیکی[10] مقیاس بزرگ[11] و خدمات شبکههای اجتماعی، که اغلب طیف متنوعی از محصولات را ارائه میدهند یا خدمات و دستهبندیهای مختلف محصول / خدمات مانند کتاب، لباس، وسایل الکترونیکی به طور طبیعی حوزههای مختلفی را تشکیل میدهند مناسب است. با کاوش در همبستگی[12] بین وظایف پیشبینی پیوند در دامنههای مختلف، میتوان دانش مشترک را در میان کارهای مشابه برای کاهش مسئله پراکندگی دادههای مرتبط با وظایف فردی و در نتیجه بهبود عملکرد همه وظایف انتقال دهد.
ما یک چارچوب غیرپارامتری بیزی را برای پیشبینی پیوند جمعی با ایجاد یک پسوند چند وظیفهای از مدل متغیر-پنهان[13] فرآیند-گوسی[14] پیشنهاد میدهیم (لارنس[15]، 2003). در مدل پیشبینی پیوند جمعی دو چالش عمده وجود دارد که در کار قبلی در مورد پیشبینی پیوند مورد توجه قرار نگرفته است. اولین چالش درجات مختلف ارتباط بین حوزههای وظیفه ناهمگن است، که ما مایل به انتقال دانش آنها در حوزههای یادگیری هدف هستیم. به عنوان مثال، وظیفه پیشبینی تنظیمات برگزیده کاربر روی کتابها باید بیشتر مربوط به پیشبینی تنظیمات کاربر در فیلمها نسبت به ترجیحات کاربر روی غذا باشد. از آنجا که همه وظایف به یک اندازه با هم مرتبط نیستند، باید شباهتهای مشترک وظایف را در مدل برای این منظور را در نظر بگیریم، ما هسته تشابه وظایف را در مدل ترکیب میکنیم، که دادهها برای انتقال سازگار دانش بین وظایف ناهمگن به صورت خودکار است. چالش دوم از توزیع انحرافی[16] اکثر دادههای پیوند در دنیای واقعی[17] ناشی میشود. به عنوان مثال، وقتی داده پیوند درمورد رتبهبندی کاربر تشکیل شده باشد، مقدار رتبهبندی مثبت اغلب به طور قابل توجهی از مقدار رتبهبندی منفی بیشتر است، از آنجایی که کاربران مواردی که دوست ندارند را ارزیابی نمیکنند. برای مدلهای فرایند گاوسی، چنین توزیعهای نامتوازنی فرض توزیع داده را نقض میکنند. برای اصلاح سوگیری و انحراف توزیعهای دادههای پیوند و مدیریت انواع پیوندهای ناهمگن، ما همچنین یک خانواده خاص از توابع پیوند را برای پیشبینی پیوند جمعی معرفی میکنیم. ما روی چندین مجموعه داده واقعی در دنیای-واقعی از چندین حوزه ناهمگن آزمایشاتی انجام میدهیم و در چندین آزمایش اثربخشی حالت پیشنهادی خود را نشان میدهیم.
[1] Computational Biology
[2] Products/Advertisements
[3] Real-World
[4] Data Sparsity
[5] Long Tail
[6] Cold-Start
[7] Data-Sparsity
[8] Collective Link
[9] Multiple Heterogeneous Domains
[10] E-Commerce
[11] Large Scale
[12] Correlation
[13] Latent-Variable
[14] Gaussion-Process
[15] Lawrence
[16] Skewed Distributions
[17] Real-World