روشهای انتخاب ویژگی (Feature Selection Methods) به منظور مواجهه با دادههای ابعاد بالا، به مولفهای جدایی ناپذیر از فرآیند یادگیری مبدل شدهاند. یک انتخاب ویژگی صحیح میتواند منجر به بهبود یادگیرنده استقرایی از جهتهای گوناگون از جمله سرعت یادگیری، ظرفیت تعمیم و سادگی مدل استنتاج شده شود. در این مطلب بحث استخراج ویژگی و انتخاب ویژگی و انواع روشهای آن مورد بررس قرار میگیرد.
طی چند سال اخیر، مجموعه دادههای متعددی با ابعاد بالا در اینترنت در دسترس عموم قرار گرفتند. این امر چالش جالب توجهی را برای جوامع پژوهشی در پی داشت، زیرا برای الگوریتمهای یادگیری ماشین سر و کار داشتن با حجم زیادی از ویژگیهای ورودی کاری دشوار است. در حال حاضر، ابعاد مجموعه دادههای بنچمارک که از مخازن داده گوناگون در دسترس هستند به میلیونها عدد یا حتی بیشتر افزایش یافته است. در حقیقت، تحلیلهایی که توسط پژوهشگران انجام شده حاکی از آن است که ۷ تا از ۱۱ مجموعه دادهای که در سال ۲۰۰۷ منتشر شدهاند دارای ابعادی بالغ بر میلیونها ویژگی بودهاند. برای مواجهه با مساله تعداد بالای ویژگیها، روشهای کاهش ابعاد الزامی است و میتوانند به بهبود کارایی یادگیری کمک کنند.
ادامه مطلب ...زمانی که در یک سازمان، موسسه یا هر شرکت دیگر، دادههای کلان وارد بانک اطلاعاتی مجموعه میشوند؛ نرمافزارهای داده کاوی وارد عمل شده و با استفاده از الگوهای مشخصی که از قبل تعریف گردیده است؛ دادههای اولیه را بر اساس ویژگیهای مطلوب شناسایی کرده، دادههای پرت و مزاحم را حذف مینمایند و الگو یا رابطه بین دادههای باقیمانده را کشف میکنند. بهاینترتیب با تحلیل، تفسیر و به نمایش گذاشتن یافتهها، دانش لازم برای تصمیمگیریها، تراکنشها و هر عملیات دیگر موردنیاز آن سیستم یا مجموعه فراهم میشود. میتوان گفت که اصلیترین مرحله، انتخاب ویژگی در داده کاوی است. در زیر مراحل داده کاوی آورده شده است.
چکیده
در سالهای اخیر، تحلیل شبکه برای شناسایی و تحلیل الگوها ارتباط آماری در دادههای روانشناختی چند متغیره به کار گرفته شده است. در این رویکردها، گرههای شبکه، متغیرها را در یک مجموعه داده نشان میدهند و یالها نشاندهنده روابط شرطی زوجی بین متغیرها در دادههاست، در حالی که به متغیرهای باقی مانده شرطی میشوند. این پرایمر یک آناتومی این تکنیکها، وضعیت فعلی را توصیف میکند و مسائل باز را مورد بحث قرار میدهد. ما ساختارهای داده مربوطه را شناسایی میکنیم که تحلیل شبکه ممکن است در آنها اعمال شود: دادهها مقطعی، اندازهگیریهای مکرر و دادههای طولی فشرده. سپس در مورد تخمین ساختارهای شبکه و همچنین تکنیکهای ارزیابی برای ارزیابی شبکه استحکام و تکرارپذیری در هر یک از این موارد بحث میکنیم. کاربردهای موفقیتآمیز تکنیک در زمینههای مختلف تحقیقاتی برجسته میشوند. در نهایت، محدودیتها و چالشهای تحقیقات آینده را مورد بحث قرار میدهیم.
ادامه مطلب ...