در معنای لغوی داده کاوی ( Data Mining) واژه Mine به معنای استخراج از منابع نهفته و با ارزش زمین است و ادغام این کلمه با Data به معنی جستجویی عمیق از داده های قابل دسترس با حجم زیاد برای یافتن اطلاعات مفید که قبلا نهفته بودند،می باشد.
هدف از داده کاوی استخراج اطلاعات مفید از بانکهای اطلاعاتی بزرگ یا انبارهای داده است و در جنبههای مختلف تجاری و علم کاربرد دارد. الگوریتمهای دادهکاوی در صنعت بهداشت و درمان نقش مهمی در پیشبینی و تشخیص بیماریها دارد و همچنین از آن در صنایع داروسازی، مدیریت بیمارستان، بازاریابی، مدیریت ارتباط با مشتری، مهندسی و آنالیز پزشکی، وب کاوی و ... استفاده شدهاست.
بطور کلی داده کـاوی پل ارتباطی میان علم آمـار، علم کامپیوتر، هوش مصنوعی، الگوشناسی، فـراگیری مـاشین و بازنمایی بصری داده می باشد. و مانند درختی است که در تکنولوژیهای دیگر ریشه دارد.ریشههای داده کاوی میان سه خانواده از علوم قابل پیگیری میباشد.
· مهمترین این خانواده ها آمارکلاسیک است.
بدون آمار هیچ داده کاوی وجود نخواهد داشت بطوریکه آمار اساس اغلب تکنولوژیی می باشد که داده کاوی بر روی آنها بنا می باشد
· دومین خانوادهای که داده کاوی به آن تعلق دارد هوش مصنوعی میباشد.
هوش مصنوعی که برپایه روشهای ابتکاری میباشد و با آمار ضدیت دارد، تلاش دارد تا فرآیندی مانند فکر انسان را برای حل مسائل آماری بکار بندد.
· سومین خانواده ی داده کاوی، یادگیری ماشین است.
یادگیری ماشین مفهوم دقیق تر اجتماع آمار و هوش مصنوعی میباشد.
تکنیکهای مختلف هوش مصنوعی مانند یادگیری ماشین یا پردازش زبان طبیعی ارتباط انسان و ماشین را به صورت نوشتاری و گفتاری امکانپذیر میکند. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شد چون مخلوطی از روش های ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته میباشد.
یادگیری ماشین مجموعهای از روشهای مختلف است که می تواند به صورت خودکار الگوهای نهان در دادهها را کشف کند.
رابطهای دو طرفهای مابین دادهکاوی و یادگیری ماشین حاکم است. دادهکاوی از یادگیری ماشین استفاده میکند. یادگیری ماشین دادهکاوی را قادر به دریافت نتیجه مینماید.
داده کاوی یک فرایند است و هدفش این است که بتواند یکسری الگوهائی از اعداد بدست بیاورد که دارای خصوصیات زیر باشد:
· معتبر (Valid)
· مفید (Useful)
· جدید(Novel )
· قابل فهم(Understandable)
امروزه در حوزه پزشکی، جمع آوری دادهها در مورد بیماری های مختلف از اهمیت زیادی برخوردار است.
به سبب حجم بالای دادههای جمع آوری شده و بدست آوردن الگوها و نتایج مورد نظر از بین این حجم انبوه دادهها لزوم استفاده از تکنیکهای داده کاوی در حوزه سلامت مشخص میشود .
استفاده از الگوریتم ها و تکنیکهای داده کاوی می تواند الگوها و نتایجی را برای محققین فراهم کند که عوامل ابتلا به بیماری های مختلف را نشان دهد و بر اساس آن نتایج ، پزشکان و دست اندرکاران علوم پزشکی در پیشگیری آن بیماریها اقدام کنند.
تفاوت داده کاوی با روشهای آماری در این است که در علم آمار ما به دنبال اثبات فرضیه مورد نظر هستیم. اما در دادهکاوی بر خلاف علم آمار به دنبال پیشگویی هستند نه کشف یا اثبات بدین معنا که با استفاده از روشهای داده کاوی به دنبال تایید آنچه از قبل وجود دارد نیستند، بلکه به دنبال مشخص کردن الگوهای از قبل شناخته نشده هستند. به عنوان مثال در داده کاوی به دنبال این نیستند که تعیین کنند چه کسانی دارای بیماری قلبی هستند، بلکه به دنبال این مورد هستند که چه عواملی ممکن است در بروز این بیماری نقش بیشتری داشته باشند.
از جمله کاربردهای داده کاوی در حوزه سلامت میتوان به موارد زیر اشاره کرد:
· تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
· تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت
· تشخیص بیماریها براساس انواع اطلاعات (تصاویر پزشکی، مشخصات بیمار احتمالی)
· تشخیص ناهنجاریهائی که توسط انسان به سختی قابل تشخیص خواهند بود
· بررسی میزان تاثیر دارو بر بیماری و اثرات جانبی آن
· تـشخیـص و پیـش بینـی انـواع بیمـاریهـا مانند تشخیص یا پیش بینی انواع سرطان
· تعیین روش درمان بیماری ها
· تـجــزیــه و تـحـلـیــل دادههــای مـوجـود در سیستم های اطلاعات سلامت HIS
· تحلیل عکس های پزشکی
· بازاریابی دارو