CNDM (Complex Networks and Data Mining)

CNDM (Complex Networks and Data Mining)

شبکه‌های پیچیده و داده کاوی
CNDM (Complex Networks and Data Mining)

CNDM (Complex Networks and Data Mining)

شبکه‌های پیچیده و داده کاوی

قانون قدرت| همراه با معرفی کتاب Linked نوشته آلبرت باراباشی


در این نوشته می‌خواهم از یکی از مهم‌ترین مدل‌های دنیای اطرافمان بنویسم. مدلی که شاید کم و بیش با آن آشنا باشیم اما به طور جدی به آن فکر نکرده‌ایم. به عنوان مثال، اگر کتاب قوی سیاه نسیم طالب را خوانده‌ایم و از دنیای کرانستان و میانستانش شنیده‌ایم به نحوی پا به دنیای مرموز پدیده‌هایی که از مدل Power law تبعیت می‌کنند گذاشته‌ایم.

دنیایی که هر چه بیشتر شبکه‌ای شدن اطرافمان، بیشتر به آن قدرت بروز می‌دهد.

  

دنیای «ترین»ها.

مقدمه۱: معمولاً ذوق خوردن اولین تکه پیتزای مخصوصی که داغِ داغ بدستمان رسیده، چیزدیگری است. اما هر چه تکه‌های بیشتری از آن پیتزا می‌خوریم، تکه بعدترش ذوق کمتری برایمان دارد.

مثل این که می‌گویند پول هم چنین خاصیتی دارد. هنگامی که از بازه نیازهای اصلی می‌گذرد لذت واحدهای بعدیش کمتر می‌شود. یعنی این که اگر از هیچ به یک میلیارد تومان ثروت برسید بسیار لذت بخش‌تر از هنگامی‌ است که ثروت‌تان از ۹۹ میلیارد به ۱۰۰ میلیارد تومان می‌رسد. بسیاری از پدیده‌های دنیای اطرافمان از این قاعده پیروی می‌کنند چیزی که به آن «بازده نزولی» یا diminishing return می‌گویند.

یکی بیشترشان، ارزش کمتری ایجاد می‌کند.

در اقتصاد هم خروجی نیروهای یک کارگاه را معمولاً منطبق بر همین مدل می‌دانند. مثلاً اگر نیروی کار اول ۱۰۰ واحد ارزش ایجاد می‌کند، نیروی کار دوم ۹۵ واحد ارزش ایجاد می‌کند و نیروی کار سوم ۹۰ واحد. اگرچه به صورت فردی قابلیت‌ این افراد یکسان است اما ذات خروجی اقتصادی کارگاه، بازده نزولی دارد. ما احساس می‌کنیم این روند طبیعی دنیاست. یک جور ترمز طبیعی که باعث می‌شود اختلاف‌ها زیاد نشوند. یک جور همسان‌سازی طبیعی که در ذات طبیعت گذاشته شده، که از رشد عجیب و غریب جلوگیری کند.

***

مقدمه ۲: تازه فقط بحث بازده نزولی نیست. فرض کنید پزشکی داشته باشیم که با تمام وجودش کار کند و به بیمارانش به یک چشم نگاه کند، یعنی فرض می‌گیریم بیمار بیستم را هم به همان دقتی معاینه می‌کند که بیمار اول را معاینه کرده بود. اما پزشک هم بالاخره ظرفیتی دارد. چند نفر بیمار در یک روز ببیند خوب است؟

بیست تا؟ سی تا؟ صد تا؟

برای اولین بارچند سال پیش بود که با خواندن کتاب قوی سیاه از نسیم طالب، شاخک‌هایم به این مسأله حساس شد. طالب این نوع شغل‌ها را «مقیاس‌ناپذیر» خوانده بود و آن‌ها را گذاشته بود کنار شغل‌های مقیاس‌پذیری که در ظاهر حد ندارند. مثلاً کاری که مایکروسافت می‌کند. مایکروسافت ویندوز را تولید می‌کند و از آن به بعد انگار که ماشین پول چاپ‌کنی داشته باشد می‌نشیند و به چاپ پول‌هایش می‌پردازد. این چاپ پول بی‌رویه با آن بازده نزولی که اقتصاددانان برایمان گفته بودند که نمی‌خواند؛ می‌خواند؟ انگار هر ویندوزی که فروخته می‌شود، ویندوز بعدی راحت‌تر به فروش می‌رسد؟ این چه دنیایی است؟ پس ترمزش کجاست؟

***

مقدمه ۳: بعداً هم فهمیدیم که به این دینامیکی که در فروش ویندوز وجود دارد، «اثر شبکه‌»‌ای می‌گویند. این که صرف استفاده از تعداد بیشتری از یک محصول، مطلوبیت آن افزایش می‌یابد، بدون آن که ذره‌ای خود محصول تغییری کرده باشد.

مثال کلاسیک آن هم ابزارهای ارتباطی مثل تلفن است. یک تلفن دردی از کسی دوا نمی‌کند. تلفن‌ها که دو تا می‌شوند تازه ارزش خودشان را نشان می‌دهند و هر تلفنی که به این مجموعه اضافه می‌شود، ارزش مجموعه تلفن‌ها نه به صورت خطی که براساس قانون متکالفه با توان دو تعداد تلفن‌ها، افزایش می‌یابد. یعنی یک شبکه ۳ تلفنه، ۹ واحد ارزش دارد و یک شبکه ۱۰ تلفنه، ۱۰۰ واحد ارزش دارد و شبکه ۱۰۰ تلفنه، ۱۰۰۰۰ واحد.

فوق‌العاده است نه؟ محصول همان محصول است. با هر پیچیدگی که بوده یکبار تولید شده و حالا آن چه اهمیت می‌یابد اضافه شدن بیشتر مشتریان است. هر مشتری که اضافه می‌شود، بدون آن که بهبودی در محصول حاصل شده باشد، ارزش محصول بیشتر می‌شود. این همان پیشران و درایور اصلی پشت قدرت پلتفرم‌هاست. پشت دیجی‌کالا، دیوار، اسنپ و آپارات.

***

اصل مطلب: بهانه نوشتن این مطلب خواندن کتاب Linked از آلبرت باراباشی(Albert Laszlo Barabasi) یکی از مشهورترین افراد صاحب‌نظر در علم شبکه (Network science) است. معمولاً تمایلی وجود دارد که کتاب‌ هر چه جدیدتر بهتر. خب اگر چنین تمایلی در شما وجود دارد شاید دانستن سال چاپ این کتاب که ۲۰۰۲ است شما را کمی ناامید کند. اما به نظرم بهتر است عجول نباشیم و اتفاقاً به کتاب‌هایی که پایه‌ای‌ترند و از آزمون زمان سربلند بیرون آمده‌اند بیشتر مجال دهیم.

این کتاب با زبانی روان و برای مخاطب عمومی‌تر نوشته شده و از این رو جز چند فرمولی در پاورقی‌ها قرار نیست با پیچیدگی‌های فنی و زبان ریاضی پشت مفاهیم کتاب آشنا شویم. اما همین ابتدا تا یادم نرفته بگویم که به همت آقای باراباشی مرجعی نوشته و تدوین شده با عنوان Network science که علاوه بر این که به صورت چاپی توسط انتشارات کمبریج به عنوان مرجع دانشگاهی در زمینه شبکه‌ها به چاپ رسیده، به صورت رایگان و آنلاین در دسترس است که می‌تواند خوراک مناسبی برای پیگیری بیشتر و دقیق‌تر مفاهیم کتاب باشد (علاوه بر انبوهی از مطالب دیگری که در Linked نیامده اما در این مرجع قابل‌دسترسی است)

احتمالا اگر در دبیرستان ریاضی فیزیک خوانده‌اید با ریاضیات گسسته و گراف‌ها آشنا باشید. آشنایی مقدماتی با این مفاهیم به همراه اندکی دست و پنجه نرم کردن با مفاهیمی مثل احتمال و توزیع‌های آماری پایه‌های مناسبی برای عمیق‌تر غرق شدن در این دنیا است. اما هیچ‌کدام از این‌ها برای آن که Linked را بخوانید و از مفاهیم آن لذت ببرید، ضروری نیستند و می‌توان بدون چنین مقدماتی هم از این کتاب لذت برد.

آلبرت باراباشی را شاید بتوان از دسته Late bloomerها دانست آن‌هایی که دیرتر می‌شکفند یا دیرتر علاقه خود را کشف می‌کنند یا دیرتر جرئت می‌کنند به علاقه خود بها دهند. آن گونه که خود در کتاب روایت می‌کند مدتی پس از گرفتن دکترایش در رشته فیزیک و به اتفاقی با کتابی در زمینه علوم کامپیوتر برخورد می‌کند که او را به شدت به فکر فرو می‌برد.

جای خالی تحلیل شبکه‌ها را در علوم مختلف احساس می‌کند و در نهایت پا به این مسیر می‌گذارد. اگر چه ابتدا تلاش‌هایش آن گونه که باید به ثمر نمی‌نشیند. به عنوان مثال اولین مقاله‌ای که در این زمینه برای چاپ می‌فرستد مردود می‌شود و هم‌چنین برای آن که بتواند کرسی استادی خود را حفظ کند نمی‌تواند بی‌محابا و با تمام وجود وارد این فضا شود، غم نان او را محتاط‌تر می‌کند.

اما به هر حال روزی در برابر بهترین شاگرد خود (رکا آلبرت) می‌نشیند و از او می‌خواهد که موضوع مرسوم تحقیق دکترایش را رها کند موضوعی که این شاگرد آنقدر در آن پیش رفته بوده که می‌توانسته با جمع کردن یافته‌هایش در آینده‌ای نزدیک از تز دکتری خود دفاع کند- و به او در مسیر ناشناخته مطالعه شبکه‌ها بپیوندد. باراباشی می‌داند کارهای بزرگ کردن، ریسک‌‌های بزرگ دارد.

هم‌چون داستان‌های پریان، این پذیرش ریسک، پایانی خوش دارد.

حاصل این همکاری منجر به یکی از پایه‌ای‌ترین مقالات علم شبکه می‌شود. مقاله‌ای که در Science یکی از بزرگ‌ترین ژورنال‌های علمی به چاپ می‌رسد و به یکی از پراستنادترین (cited) تحقیق‌های این حوزه تبدیل می‌شود. موضوع این مقاله تحلیل شبکه‌های آزادمقیاس یا Free scale networks است که یکی از جذاب‌ترین قسمت‌های کتاب Linked هم به توضیح این شبکه‌ها اختصاص داده شده است.

راستش را بخواهید از قسمت‌های مختلفی از این کتاب می‌توان صحبت کرد، اما من ترجیح می‌دهم برای این نوشته بر همین قسمت تاکید کنم. از آن رو که عمیق فهمیدنش می‌تواند به ما در فهمیدن بهتر برخی پدیده‌های دنیای اطرافمان یاری رساند.

***

به طور خلاصه و در حد این نوشته می‌توان گفت شبکه‌های آزادمقیاس از مدل قانون قدرت (Power law) پیروی می‌کنند.

برای فهم بهتر شبکه‌های آزادمقیاس (که اسم پرطمطراقی هم به نظر می‌رسد) به نظرم بد نباشد برگردیم به نسیم طالب. برگردیم به سرزمین «میانستان» و «کرانستان»ی که آقای طالب در کتاب قوی سیاه خود از آن‌ها می‌گوید.

در سرزمین میانستان فاصله‌ها آنقدر زیاد نیست.

مثلا توزیع قد افراد را نگاه کنید چقدر احتمال دارد در خیابان فردی را ببینید که قدش بالاتر از ۲ متر باشد؟

احتمالاً می‌گویید کم.

چقدر احتمال دارد فردی را ببینید که بالای ۲ متر و ۲۰ سانتی‌متر باشد؟

خیلی خیلی کم.

بالای ۳ متر؟ بالای ۴ متر؟ بالای ۴۰ متر؟ بالای ۴۰۰ متر؟

تقریباً محال.

در سرزمین میانستان، Outlierها (افرادی که از الگوی رایج پیروی نمی‌کنند) مثلا همین افراد بالاتر از ۲ متر و بیست سانتی‌متری که از آن‌ها در بالا نام برده شد، آن چنان اثری بر روی میانگین ندارند. یک فرد ۲ متر و بیست سانتی نمی‌تواند میانگین قد جهانی را تکان دهد.

اما توزیع ثروت افراد چگونه است؟

در دنیای کرانستان با Outlierهایی روبرو هستیم که ثروت تک تکشان از مجموع درآمد سالانه چند کشور بیشتر است. این Outlierها به طور قابل‌توجهی بر روی میانگین اثرگذارند.

مدل قانون قدرت در این سرزمین قدرت‌نمایی می‌کند. سرزمین کرانستان اختصاص دارد به پدیده‌هایی که از مدل قانون قدرت تبعیت می‌کنند و شبکه‌هایی از جنس شبکه‌های آزادمقیاس در آن‌ها پا می‌گیرد. 

***

بسیاری از پدیده‌های اطرافمان بر اساس دینامیک چنین شبکه‌ای یا مشابه با آن پا می‌گیرند:

خواننده‌های معروفی که می‌شناسیم؛

نویسندگان مشهوری که کتاب‌هایشان را می‌خوانیم؛

ارزهایی که بانک‌های مرکزی دنیا به عنوان ارز پشتیبان ذخیره می‌کنند؛

برندهایی که در زمینه‌های مختلف لقلقه زبانمان می‌شوند؛

دنیای پلتفرم‌ها و بسیاری از استارتاپ‌های معروفی که می‌شناسیم؛

فیلم‌های پرفروشی که بر پرده سینما می‌بینیم.

یا بسیاری از ضرب‌المثل‌ها و عبارت‌های معروفی که از آنان یاد می‌کنیم اشاره به قانون قدرت دارند:

پول، پول می‌آورد، موفقیت سهم موفق‌هاست و چیزهایی مانند بالا.

***

مدت‌ها قبل در نوشته‌ای که درباره نمودار دم بلند و کتاب Long tail کریس اندرسون نوشتم (اینجا) به نمودارهای این چنینی اشاره کردم.

درباره فیلم‌ها نوشتم. نوشتم که چند فیلمی بسیار پر فروش می‌شوند و باقی فیلم‌ها در دم بلند نمودار قرار می‌گیرند.

نویسنده وبلاگ هم باشید این را متوجه شده‌اید که مطالعه نوشته‌های وبلاگ، چنین نموداری دارند چند نوشته‌ای بسیار پرطرفدار است و نوشته‌های دیگر در دم بلند خوانده شدن قرار می‌گیرند با تعداد خوانندگانی که به گرد پای نوشته‌های پرطرفدار نمی‌رسند.

هنگامی باراباشی توجه‌ش به این موضوع جلب شد که با کراول کردن قسمتی از دنیای وب در آن سال‌ها متوجه شد، توصیف رابطه بین گره‌های شبکه وب نمی‌تواند از طریق مدل‌های رایج آن زمان اتفاق افتد و این مدل‌ها ناتوان از توصیف این پدیده هستند. او و همکارش مشاهده کردند که در شبکه وب چند تایی از گره‌ها بسیار پر طرفدار بودند (یعنی لینک‌های بسیاری سمتشان می‌آمد) اما باقی گره‌ها لینک‌های معدودی را دریافت می‌کردند. دقت کنید می‌بینید این در دنیای ما انسان‌ها هم هست، معمولاً هر کدام از ما را افراد معدودی می‌شناسند اما در میان انسان‌ها، هستند انسان‌هایی که میلیون‌ها نفر در جهان آن‌ها را می‌شناسند.

***

البته شناخت پدیده‌هایی که بر اساس مدل قانون قدرت عمل می‌کنند به سال‌ها قبل باز می‌گردد. مثلا قانون ۲۰/۸۰ از اقتصاددان ایتالیایی، ولیفردو پارتو به همین اشاره دارد. ۸۰ درصد ثروت جامعه در دست ۲۰% از افراد آن جامعه است یا ۸۰% سوالات امتحانی از ۲۰% کتاب می‌آید، یا ۸۰% ارزش افزوده از کار ۲۰% افراد شرکت ایجاد می‌شود. البته همان‌طور که حدس می‌زنید قانون ۲۰/۸۰ صورت ساده‌شده‌ی پدیده‌هایی است که از قانون قدرت تبعیت می‌کنند و می‌توانیم خیلی جاها بگوییم چرا ۲۰/۸۰؟ چرا ۱۵/۸۵ نباشد؟ چرا ۱۰/۹۰ نباشد؟

پس اگر این پدیده شناخته شده بوده، باراباشی و همکارش چه چیزی به این یافته اضافه کرده‌اند؟

این دانشمندان کمک کردند که دینامیک پشت چنین پدیده‌ای را بهتر بفهمیم. شاید در ابتدای مواجهه با چنین مدلی یا پدیده‌های این چنینی، احساس کنیم عوامل بنیادین پیچیده‌ای پشت شکل‌گیری آنان وجود دارد اما باراباشی نشان داد که تنها دو عامل اصلی پیشران چنین اتفاقی است:

عامل اول رشد شبکه و اضافه شدن گره‌های آن است جالب است که تا پیش از ارائه مدل باراباشی شبکه‌ها را استاتیک در نظر می‌گرفتند. یعنی هنگامی که مطالعه بر روی یک گراف یا یک شبکه را آغاز می‌کردند تعداد گره(Node)های آن را ثابت می‌گرفتند اما باراباشی دریافت که این نکته بسیار مهمی است که در دنیای واقعی گره‌ها رشد می‌کنند.

موارد زیر را در نظر بگیرید:

تعداد خوانندگان کتاب‌ها؛

تعداد فیلم‌های سینمایی تولید شده؛

تعداد استفاده‌کنندگان از اینترنت؛

همه این‌ها در حال افزایش‌اند و نمی‌توان با فرض ثابت بودن تعداد و استاتیک گرفتن شبکه آن را مطالعه کرد.

عامل بنیادی دوم را «اتصال ترجیحی» یا Preferential attachment نام نهادند. با این تعریف ساده که گره‌های جدیدی که به شبکه اضافه می‌شوند ترجیح می‌دهند به گره‌هایی متصل شوند که گره‌های بیشتری به آنان وصلند. مثلا فرض کنید که شما می‌خواهید عمل جراحی کنید ترجیح می‌دهید جراحی شما را عمل کند، که تعداد بیشتری جراحی داشته باشد. فرض کنید کتابی را می‌خواهید بخوانید ترجیح می‌دهید کتابی را بخوانید که افراد بیشتری آن را خوانده‌اند و توصیه کرده‌اند.

باراباشی و آلبرت نشان دادند که با همین دو اصل به ظاهر ساده، نمودارهای منطبق بر قانون قدرت بازآفریده می‌شوند. 

اگر به ابتدای این نوشته و بازده نزولی باز گردیم می‌بینیم در این مدل نه تنها بازده نزولی نیست که صعودی است.

هر چه کتابی بیشتر خوانده شود، شانس بیشتری دارد که بیشتر خوانده شود؛

هر مقاله‌ای که ارجاع بیشتری دریافت کند، شانس بیشتری دارد که به آن ارجاع شود؛

و هر چه مطلبی بیشتر به اشتراک گذاشته شود، شانس بیشتری برای به اشتراک‌گذاری دارد.

اگر دقت کنیم این اتصال ترجیحی در بحث اثر شبکه‌ای هم وجود دارد و اثر شبکه‌ای هم می‌تواند تحت همین مدل تحلیل شود.

به عنوان مثال، تعداد استفاده‌کنندگان از یک محصول که بیشتر می‌شود، کاربران بیشتری مشتاق می‌شوند که از آن محصول در مقایسه با محصول رقیب استفاده کنند. یا تعداد استفاده‌کنندگان از یک زبان (مثلا زبان انگلیسی) که بیشتر می‌شود ترجیح باقی افراد برای آن که آن زبان را یاد بگیرند بیشتر می‌شود و این گونه می‌شود که انتخاب اول برای یادگیری زبان با اختلاف زیاد انگلیسی است و البته بسیاری از پدیده‌های مشابه که می‌توان با استفاده از این مدل بهتر درکشان کرد.

این‌گونه بهتر می‌توانیم مفهوم هاب(Hub) را بفهمیم.

می‌فهمیم چرا هاب‌های مالی دنیا محدودند.

چرا هاب‌های منطقه‌ای محدودند.

چرا برخلاف کسب‌وکارهای معمولی که در سطح شهر پراکنده‌اند، کسب‌وکارهای پلتفرمی به یک، دو یا نهایتا سه اسم غالب (مثل اسنپ و تپسی، مثل دیجی‌کالا مثل دیوار) ختم می‌شوند.

یا چرا اینفلوئنسرهای اینستاگرامی به وجود می‌آیند، چگونه شبکه‌های تروریستی پا می‌گیرند و رهبرانشان از کجا سر بر می‌آورند. و وقتی دینامیک پشت این شبکه‌ها را می‌فهمیم، می‌فهمیم که به سادگی و با از بین بردن رهبر چنین شبکه‌ای (که در واقع تنها یک هاب است) نمی‌توان آن شبکه را از بین برد.

***

به نظرم تا این جا برای این نوشته کافی باشد.

اگر چه که می‌توان بسیار بیشتر درباره این مدل و در کل علم شبکه گفت.

استفاده از این مدل در مطالعه بسیاری از رشته‌ها همچون زیست‌شناسی و سلول‌شناسی کاربرد دارند و از همین روست که هم باراباشی همکاری‌هایی با مدرسه پزشکی هاروارد دارد و هم شاگرد او که اکنون علاوه بر استادی فیزیک، استاد زیست‌شناسی نیز هست.

به نظرم پس از خواندن این متن، یکی از کارهایی که می‌توانیم بکنیم این است که بگردیم و ببینیم چه پدیده‌هایی در دنیایمان از قانون قدرت پیروی می‌کنند و ممکن است چه عواملی باعث از  میان رفتنشان شود یا قدرت بیشتری به آنان بدهد. کمی که دقت کنیم می‌بینیم پدیده‌های این‌چنینی چقدر فراوانند. یا این بار که بین دو گزینه ترجیح دادیم که گزینه‌ای را انتخاب کنیم که پیش از ما انسان‌های بیشتری آن را انتخاب کرده‌اند، بهتر می‌‌فهمیم در حال چینش سنگفرش‌های پدیده‌ای منطبق بر قانون قدرت هستیم.

 

نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد