GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف
GML (Graph Machine Learning)

GML (Graph Machine Learning)

یادگیری ماشین گراف

نحوه انتخاب ویژگی و موارد استفاده از آن

  با پیشرفت روزافزون علم و فناوری، همگی شاهد این قضیه هستیم که انواع مؤسسات و سازمان‌ها به‌طور روزانه انبوه داده‌ها را ثبت و ضبط می‌کنند و برای مدیریت تراکنش‌های این داده‌های کلان و انجام عملیات مختلف بر روی آن‌ها، نیازمند الگوریتم‌ها و روش‌هایی برای انتخاب داده‌های برتر یا کاربردی هستند. چراکه نحوه انتخاب ویژگی در داده کاوی، بر نحوه عملکرد سیستم در هر سازمان، به‌طور مستقیم تأثیر می‌گذارد.


زمانی که در یک سازمان، موسسه یا هر شرکت دیگر، داده‌های کلان وارد بانک اطلاعاتی مجموعه می‌شوند؛ نرم‌افزارهای داده کاوی وارد عمل شده و با استفاده از الگوهای مشخصی که از قبل تعریف گردیده است؛ داده‌های اولیه را بر اساس ویژگی‌های مطلوب شناسایی کرده، داده‌های پرت و مزاحم را حذف می‌نمایند و الگو یا رابطه بین داده‌های باقی‌مانده را کشف می‌کنندبه‌این‌ترتیب با تحلیل، تفسیر و به نمایش گذاشتن یافته‌ها، دانش لازم برای تصمیم‌گیری‌ها، تراکنش‌ها و هر عملیات دیگر موردنیاز آن سیستم یا مجموعه فراهم می‌شود. می‌توان گفت که اصلی‌ترین مرحله، انتخاب ویژگی در داده کاوی است. در زیر مراحل داده کاوی آورده شده است.

  

 


 



فرایند داده کاوی


هدف از انتخاب ویژگی در داده کاوی چیست؟

فرآیند انتخاب ویژگی، همان فرآیند کاهش تعداد داده‌های ورودی با هدف توسعه یک مدل پیش‌بینی است. روش‌های انتخاب ویژگی در داده کاوی، شامل ارزیابی رابطه بین هر متغیر ورودی و متغیر هدف با روش آمارگیری و انتخاب گروهی از داده‌ها که قوی‌ترین رابطه را با متغیر هدف دارند؛ می‌باشد. لازم به ذکر است که انتخاب معیارهای آماری به نوع داده متغیرهای ورودی و خروجی بستگی دارد. احتمالاً بپرسید که کاهش تعداد متغیرها چه مزیتی دارد؟ در پاسخ به این سؤال باید بگویم که هدف اصلی کاهش تعداد متغیرهای ورودی، کاهش هزینه محاسباتی مدل‌سازی و در برخی موارد بهبود عملکرد مدل مطلوب است.

تکنیک‌های انتخاب ویژگی

روش‌های انتخاب ویژگی در داده کاوی به دو دسته نظارتی و بدون نظارت تفکیک می‌شوندتکنیک‌های نظارتی به‌عنوان پیش‌بینی کننده‌ها عمل کرده و تکنیک‌های بدون نظارت، توصیف‌کننده هستند و شامل روش‌های خوشه‌بندی، الگوهای مکرر و غیره می‌شوند. به نمودار زیر توجه کنید.

روش‌های انتخاب ویژگی در داده کاوی

هرگاه نتایج احتمالی، در طول حذف عوامل پیش‌بینی مدل نادیده گرفته شد؛ بدانید که از تکنیک بدون نظارت برای داده کاوی استفاده‌شده است. بدون نظارت‌ها متغیرهای اضافی را با استفاده از همبستگی حذف می‌کنند اما نظارتی‌ها به سه زیرمجموعه بسته‌بندی یا Wrapper، فیلتر و ذاتی یا Intrinsic تقسیم می‌شوند که در ادامه به توضیح هر کدام پرداخته‌شده است.

تکنیک نظارتی مبتنی بر فیلتر

روش‌های انتخاب ویژگی مبتنی بر فیلتر، از معیارهای آماری برای امتیاز دادن به همبستگی یا وابستگی بین متغیرهای ورودی و تعیین رابطه بین آن‌ها، استفاده می‌کنند تا آن‌ها را برای انتخاب مرتبط‌ترین ویژگی‌ها فیلتر نمایند. فراموش نکنید که این معیارهای آماری باید بر اساس نوع داده متغیر ورودی و متغیر خروجی یا پاسخ با دقت انتخاب شوند؛ زیرا که انتخاب غلط معیارهای آماری می‌تواند ما را از رسیدن به دانش مطلوب تصمیم‌گیری، گمراه کند.

مشکل اصلی روش‌های نظارتی مبتنی بر فیلتر این است که گاهی دارای تعداد زیادی متغیر هستند. این متغیرها توسعه و آموزش مدل تصمیم‌گیری را کند کرده؛ به مقدار زیادی حافظه نیاز دارند و کیفیت عملکرد سیستم را پایین می‌آورند. بسیاری از مدل‌های پیش‌بینی کننده، مخصوصاً مدل‌هایی که مبتنی بر شیب‌های رگرسیون و بریدگی هستند؛ پارامترها را برای هر عبارت در مدل، تخمین می‌زنند. به همین دلیل، عدم قطعیت را به پیش‌بینی‌ها اضافه‌شده و اثربخشی کلی مدل را کاهش می‌دهد.

تکنیک نظارتی مبتنی بر بسته‌بندی یا Wrapper

در این روش، یک جعبه سیاه به‌عنوان الگوریتم یادگیری و برای پیش‌بینی انتخاب می‌شود که داده‌های مؤثر را ارزیابی و دسته‌بندی نموده و به مدل معرفی می‌کندروش‌های بسته‌بند کارایی بهتری نسبت به روش‌های فیلتر دارند زیرا مجموعه داده‌های خروجی این روش کمتر بوده و نیاز به حافظه کمتری دارد. بنابراین این روش نسبت به روش فیلترسازی داده‌ها  کم‌هزینه خواهد بود. RFEها مثال بارزی از این روش‌ها هستند.

تکنیک نظارتی ذاتی یا Intrinsic

در این روش، الگوریتم‌های یادگیری ماشین از قبل طراحی‌شده در طی فرایند آموزش، وظیفه انتخاب ویژگی را به‌طور خودکار و به‌عنوان بخشی از یادگیری مدل انجام می‌دهند. الگوریتم‌هایی مانند مدل‌های رگرسیون لجستیک جریمه‌شده با Lasso و درخت‌های تصمیم مثل جنگل تصادفی مثال‌هایی از الگوریتم‌هایی هستند که انتخاب خودکار ویژگی‌ها را در طول آموزش انجام می‌دهندبه‌این‌ترتیب که داده‌های ورودی پروژه را در یک فضای ویژگی با ابعاد پایین‌تر وارد کرده و عمل کاهش ابعاد را انجام می‌دهند. بنابراین روش‌های نظارتی ذاتی، در مقایسه با بسته‌بندها توانایی ثبت ارتباط بین متغیرها با هزینه‌های محاسباتی پایین‌تری خواهند داشت.

ترفندهای انتخاب ویژگی

برای انتخاب ویژگی در داده کاوی، ترفندهای متنوعی اعم از انواع الگوریتم‌های از پیش طراحی‌شده تا حتی همین داده‌های آماری وجود دارد یعنی برای استخراج مدل تصمیم‌گیری ممکن است حتی به‌اندازه موهای سرتان روش وجود داشته باشد ولی ما به دنبال ترفندی هستیم که ویژگی‌های مؤثر را انتخاب کرده و سیستم یا مجموعه را به مدل مناسب وصل کند پس بیایید باهم انواع ترفندها را بررسی کرده و ترفند مناسب را به‌اتفاق، انتخاب کنیم.

معیارهای آماری

استفاده از معیارهای آماری در روش‌های انتخاب ویژگی مؤثر، می‌تواند نوع همبستگی بین متغیرهای ورودی و خروجی را به‌عنوان مبنایی برای انتخاب ویژگی فیلتر رایج استخراج کند. به‌این‌ترتیب، انتخاب معیارهای آماری به‌شدت به انواع داده‌های متغیر بستگی دارد. متغیرهای ورودی رایج، به شرح زیر در ادامه، لیست شده است.



نظرات 0 + ارسال نظر
ایمیل شما بعد از ثبت نمایش داده نخواهد شد