در ابتدا یک تعریف مختصری از داده کاوی ارائه می دهم و سپس به مراحل پیش پردازش داده ها می پردازیم.
داده کاوی شامل تکنیک ها و ابزارهای میشود که به ما کمک میکند از حجم بالای داده ها ذخیره شده، اطلاعات سودمندی رو استخراج کنیم که استخراج آن ها توسط انسان و تکنیک های ساده پردازش داده غیر ممکن است.
در شکل زیر چرخه داده کاوی را مشاهده می کنید.
پیش پردازش داده ها (Data Preprocessing) اولین گام در داده کاوی می باشد و یکی از گام های مهم آن نیز به شمار می آید.
شاید اولین سوالی که پیش بیاد این است که پیش پردازش داده ها به چه دردی می خوره؟
داده هایی که امروز در پایگاه داده های مختلف نگهداری می شوند معولا سه نقض بزرگ دارند :بعضی داده ها noisy هستند، بعضی از مقادیر داده ها وجود نداره (missing)، و بعضی موارد هم ناسازگاری بین داده ها وجود دارد. این نقص ها توی داده های حجیم بسیار بیشتر است و به همین خاطر توجه به آنها بسیار مهم است.
داده های نامناسب، خروجی های داده کاوی را نیز غیر مفید خواهند کرد. به همین خاطر در پیش پردازش سعی میکنیم داده های noisy و missing و ناسازگار رو شناسایی کنیم و به بهترین شیوه ممکن این نقص ها رو رفع کنیم. تا بتوانیم خروجی های مطلوبی از داده کاوی، داده ها داشته باشیم.
مهمترین تکنیک های پیش پردازش داده ها عبارتند از:
تکنیکهای پاکسازی داده یا Data cleaning: که هدف آنها از بین برده دادههای noisy و ناسازگاریهای بین داده ها است.
تکنیکهای پاکسازی داده Data integration: از آنجایی که ممکن است دادهها از منابع مختلفی جمع آوری شده باشند، نیاز به یکپارچگی بین آنها است.
تکنیکهای کاهش داده Data reduction: در حجم بالای داده ممکن است بعضی از دادههای غیر مفید هم وجود داشته باشه و نیاز نباشه همه دادهها در پردازش نهایی باشند، تکنیکهای Data reduction اینجا کاربرد دارند.
تکنیکهای Data transformations: این الگوریتم هیا بیشتر زمانی به درد میخورند که قصد داشته باشیم نرمال سازی هایی را روی دادهها انجام دهیم.
منبع: mrmining