زمانی که در یک سازمان، موسسه یا هر شرکت دیگر، دادههای کلان وارد بانک اطلاعاتی مجموعه میشوند؛ نرمافزارهای داده کاوی وارد عمل شده و با استفاده از الگوهای مشخصی که از قبل تعریف گردیده است؛ دادههای اولیه را بر اساس ویژگیهای مطلوب شناسایی کرده، دادههای پرت و مزاحم را حذف مینمایند و الگو یا رابطه بین دادههای باقیمانده را کشف میکنند. بهاینترتیب با تحلیل، تفسیر و به نمایش گذاشتن یافتهها، دانش لازم برای تصمیمگیریها، تراکنشها و هر عملیات دیگر موردنیاز آن سیستم یا مجموعه فراهم میشود. میتوان گفت که اصلیترین مرحله، انتخاب ویژگی در داده کاوی است. در زیر مراحل داده کاوی آورده شده است.
فرآیند انتخاب ویژگی، همان فرآیند کاهش تعداد دادههای ورودی با هدف توسعه یک مدل پیشبینی است. روشهای انتخاب ویژگی در داده کاوی، شامل ارزیابی رابطه بین هر متغیر ورودی و متغیر هدف با روش آمارگیری و انتخاب گروهی از دادهها که قویترین رابطه را با متغیر هدف دارند؛ میباشد. لازم به ذکر است که انتخاب معیارهای آماری به نوع داده متغیرهای ورودی و خروجی بستگی دارد. احتمالاً بپرسید که کاهش تعداد متغیرها چه مزیتی دارد؟ در پاسخ به این سؤال باید بگویم که هدف اصلی کاهش تعداد متغیرهای ورودی، کاهش هزینه محاسباتی مدلسازی و در برخی موارد بهبود عملکرد مدل مطلوب است.
روشهای انتخاب ویژگی در داده کاوی به دو دسته نظارتی و بدون نظارت تفکیک میشوند. تکنیکهای نظارتی بهعنوان پیشبینی کنندهها عمل کرده و تکنیکهای بدون نظارت، توصیفکننده هستند و شامل روشهای خوشهبندی، الگوهای مکرر و غیره میشوند. به نمودار زیر توجه کنید.
هرگاه نتایج احتمالی، در طول حذف عوامل پیشبینی مدل نادیده گرفته شد؛ بدانید که از تکنیک بدون نظارت برای داده کاوی استفادهشده است. بدون نظارتها متغیرهای اضافی را با استفاده از همبستگی حذف میکنند اما نظارتیها به سه زیرمجموعه بستهبندی یا Wrapper، فیلتر و ذاتی یا Intrinsic تقسیم میشوند که در ادامه به توضیح هر کدام پرداختهشده است.
روشهای انتخاب ویژگی مبتنی بر فیلتر، از معیارهای آماری برای امتیاز دادن به همبستگی یا وابستگی بین متغیرهای ورودی و تعیین رابطه بین آنها، استفاده میکنند تا آنها را برای انتخاب مرتبطترین ویژگیها فیلتر نمایند. فراموش نکنید که این معیارهای آماری باید بر اساس نوع داده متغیر ورودی و متغیر خروجی یا پاسخ با دقت انتخاب شوند؛ زیرا که انتخاب غلط معیارهای آماری میتواند ما را از رسیدن به دانش مطلوب تصمیمگیری، گمراه کند.
مشکل اصلی روشهای نظارتی مبتنی بر فیلتر این است که گاهی دارای تعداد زیادی متغیر هستند. این متغیرها توسعه و آموزش مدل تصمیمگیری را کند کرده؛ به مقدار زیادی حافظه نیاز دارند و کیفیت عملکرد سیستم را پایین میآورند. بسیاری از مدلهای پیشبینی کننده، مخصوصاً مدلهایی که مبتنی بر شیبهای رگرسیون و بریدگی هستند؛ پارامترها را برای هر عبارت در مدل، تخمین میزنند. به همین دلیل، عدم قطعیت را به پیشبینیها اضافهشده و اثربخشی کلی مدل را کاهش میدهد.
در این روش، یک جعبه سیاه بهعنوان الگوریتم یادگیری و برای پیشبینی انتخاب میشود که دادههای مؤثر را ارزیابی و دستهبندی نموده و به مدل معرفی میکند. روشهای بستهبند کارایی بهتری نسبت به روشهای فیلتر دارند زیرا مجموعه دادههای خروجی این روش کمتر بوده و نیاز به حافظه کمتری دارد. بنابراین این روش نسبت به روش فیلترسازی دادهها کمهزینه خواهد بود. RFEها مثال بارزی از این روشها هستند.
در این روش، الگوریتمهای یادگیری ماشین از قبل طراحیشده در طی فرایند آموزش، وظیفه انتخاب ویژگی را بهطور خودکار و بهعنوان بخشی از یادگیری مدل انجام میدهند. الگوریتمهایی مانند مدلهای رگرسیون لجستیک جریمهشده با Lasso و درختهای تصمیم مثل جنگل تصادفی مثالهایی از الگوریتمهایی هستند که انتخاب خودکار ویژگیها را در طول آموزش انجام میدهند. بهاینترتیب که دادههای ورودی پروژه را در یک فضای ویژگی با ابعاد پایینتر وارد کرده و عمل کاهش ابعاد را انجام میدهند. بنابراین روشهای نظارتی ذاتی، در مقایسه با بستهبندها توانایی ثبت ارتباط بین متغیرها با هزینههای محاسباتی پایینتری خواهند داشت.
برای انتخاب ویژگی در داده کاوی، ترفندهای متنوعی اعم از انواع الگوریتمهای از پیش طراحیشده تا حتی همین دادههای آماری وجود دارد یعنی برای استخراج مدل تصمیمگیری ممکن است حتی بهاندازه موهای سرتان روش وجود داشته باشد ولی ما به دنبال ترفندی هستیم که ویژگیهای مؤثر را انتخاب کرده و سیستم یا مجموعه را به مدل مناسب وصل کند پس بیایید باهم انواع ترفندها را بررسی کرده و ترفند مناسب را بهاتفاق، انتخاب کنیم.
استفاده از معیارهای آماری در روشهای انتخاب ویژگی مؤثر، میتواند نوع همبستگی بین متغیرهای ورودی و خروجی را بهعنوان مبنایی برای انتخاب ویژگی فیلتر رایج استخراج کند. بهاینترتیب، انتخاب معیارهای آماری بهشدت به انواع دادههای متغیر بستگی دارد. متغیرهای ورودی رایج، به شرح زیر در ادامه، لیست شده است.