علوم و مهندسی نوین بر پایه به کارگیری مدل های بنیادی اولیه برای تحلیل سیستم های مختلف استوار است. در بسیاری از زمینه ها اصول بنیادی اولیه نا شناخته بوده یا سیستم های تحت بررسی و مطالعه برای قرار گرفتن در قالب های ریاضی بسیار پیچیده بودند. با افزایش کاربرد کامپیوتر مقدار زیادی از داده ها از طریق چنین سیستم هایی ایجاد می شوند. در صورت فقدان مدل های بنیادی اولیه، می توان از چنین داده هایی که در دسترس هستند برای برآورد و ایجاد مدل هایی با رابطه ای سودمند بین متغیرهای یک سیستم استفاده نمود (یعنی وابستگی های ورودی خروجی مجهول و ناشناخته)بنابراین در حال حاضر یک تغییر الگو از مدل سازی وتحلیل کلاسیک بر پایه اصول اولیه به مدل های در حال پیشرفت و تحلیل های مربوطه به طور مستقیم از داده ها وجود دارد.
حجم عظیمی از داده ها وجود دارد که کامپیوترها و شبکه ها و در حقیقت تمام زندگی ما را در بر گرفته است سازمان های دولتی موسسات علمی و تجاری سرمایه هنگفتی را برای جمع آوری و ذخیره این داده ها اختصاص داده اند. در حالی که در واقع فقط مقدار کمی از این داده ها مورد استفاده قرار می گیرد. زیرا در بسیاری از موارد حجم داده های لازم برای سازماندهی بسیار بالا بوده و یا ساختار آن ها برای تحلیل موثر و کارا بسیار پیچیده است.
ضرورت درک مجموعه داده های بزرگ ،پیچیده و اطلاعات کامل و غنی در زمینه تجارت ، علوم و مهندسی کمابیش رایج است. در دنیای تجارت ، داده های شرکت ها و مشتریان به عنوان یک سرمایه استراتژیک مطرح است. توانایی استخراج دانش و اطلاعات مفید موجود در این داده ها و امکان استفاده از این دانش در جهان رقابتی
بیش از پیش حایز اهمیت است. به کل فرایند به کارگیری متدلوژی مبتنی بر کامپیوتر از جمله روش های جدیدبرای دریافت دانش واطلاعات از داده ها را داده کاوی گویند.
داده کاوی فرایندی تکرارپذیر است که پیشرفت در آن با کاوش از طریق روش های خودکار یا دستی صورت می گیرد. داده کاوی سودمندترین فرایند سناریوی تحلیل اکتشافی است که در آن تصور یا برداشت از پیش تعیین شده ای درباره نتیجه قابل توجهی که به دست می آید وجود ندارد. در حقیقت داده کاوی جست و جوی لازم برای یافتن اطلاعات کلی جدید ، ارزشمند و غیر بدیهی از میان حجم زیاد داده ها می باشد.به تعبیر بهتر داده کاوی تعامل همکاری بین انسان و کامپیوتر است.
در عمل دو هدف اصلی داده کاوی شامل شامل پیش گویی و توصیف می باشد . پیش گویی شامل به کارگیری بعضی متغیرها یا فیلدها در مجموعه داده ها برای پیش گویی مقادیر نا شناخته یا آتی دیگر متغیرها می باشد . توصیف از سوی دیگر برروی یافتن الگوی توصیف داده ها که توسط انسان ها قابل تفسیر هستند تاکید دارد. بنابراین می توان فعالیت های داده کاوی را در دو گروه زیر طبقه بندی کرد.
1- داده کاوی پیش گویانه که مدلی از سیستم را ارایه می دهد، توسط مجموعه داده های مشخصی توصیف می شود. یا
2- داده کاوی توصیفی که اطلاعات جدید و غیر بدیهی را بر اساس مجموعه داده های موجود ارایه می دهد.
در طیف پیش بینی ، انتهای کار و هدف کلی داده کاوی ایجاد مدلی است که به عنوان یک برنامه و کد اجرایی بتوان از آن برای طبقه بندی ، پیش بینی ، تخمین و دیگر اعمال مشابه استفاده نمود. از طرف دیگر در طیف توصیف نهایت کار و هدف کلی به دست اوردن یک شناخت از سیستم های تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده های بزرگ می باشد. اهمیت نسبی طیف پیش بینی و توصیف برای کاربردهای خاص داده کاوی می تواند به طور قابل ملاحظه ای متفاوت باشد.
1- طبقه بندی . شناخت کارکرد یادگیری پیش گویانه ای که یک قلم اطلاعاتی را در یکی از چندین گروه کلاس از پیش تعریف شده طبقه بندی می کند.
2- رگرسیون. شناخت کارکرد یادگیری پیش گویانه ای که یک قلم اطلاعاتی را به یک متغیر پیش بینی با مقدار واقعی نگاشت یا تبدیل می کند.
3- دسته بندی.یک وظیفه توصیفی معمول که طی یک جستجوی ، مجموعه متناهی از گروه ها یا دسته ها را برای توصیف داده ها تعیین می کند.
4- مختصر سازی. یک وظیفه توصیفی اضافی که روش هایی را برای یافتن توصیف فشرده برای مجموعه ای از داده ها را در بر می گیرد.
5- مدل سازی وابستگی.یافتن یک مدل محلی که وابستگی های مهم بین متغیرها یا بین مقادیر یک مشخصه در مجموعه داده ها یا در قسمتی از مجموعه داده ها را توصیف می کند.
6- تشخیص تغییر و انحراف. پیدا کردن تغییرات مهم در مجموعه داده ها .
موفقیت عملکرد داده کاوی بیش تر به میزان تلاش ، دانش و خلاقیتی که طراح به کار می برد بستگی دارد. در حقیقت داده کاوی شبیه حل یک معما یا پازل است. در ابتدا طراحان فرایند داده کاوی احتمالا چیز زیادی در مورد منابع اصلی داده ها نمی دانستند.اگر آن ها از این فرایند اطلاع می داشتند به احتمال زیاد جذب اجرای داده کاوی نمی شدند. به طور جداگانه داده ها به نظر ساده کامل و قابل توضیح به نظر می رسند. اما در مجموع ان ها ظاهری جدید به خود می گیرند که مانند پازل درک آن سخت و دشوار است. بنابراین طراح و تحلیل گر داده کاوی به دانش حرفه ای کامل ، فکر خلاقو تمایل به بررسی جنبه های متفاوت نیاز دارد. نظر به این که داده کاوی یک فعالیت طبیعی است که برروی مجموعه داده های بزرگ و حجیم اعمال می شود یکی از از بزرگ ترین بازارهای هدف انبار جامع داده ها ، مراکز داده اختصاصی و سیستم پشتیبانی تصمیم به دست آوردن تخصصی هایی در صنایعی مانند خرده فروشی ، تولید ، مخابرات ، ارتباطات ،بهداشت عمومی ،بیمه و حمل ونقل است. در مباحث تجاری از داده کاوی می توان برای ارایه روش های جدید خرید ، استراتژی های سرمایه گذاری و تشخیص هزینه های غیر مجاز در سیستم های حسابداری استفاده نمود. داده کاوی می تواند رقابت و بازده بازاریابی را بهبود بخشیده و درآمدها ،حمایت و رضایت مشتریان را جلب کند.
بسیاری از مجریان قانون و واحدهای بازرسی ویژه که مامور شناسایی فعالیت های کلاه برداران و کشف روش های ارتکاب جرم هستند به طور موفقیت آمیزی از فرایند داده کاوی استفاده و از مزیت نسبی آن بهره مند می شوند. برای مثال این متدلوژی می تواند متخصصین و تحلیل گران را در تشخیص الگوهای بحران رفتاری در رابطه با مواد مخدر ، معاملات و تراکنش های پول شویی ، حرکات و فعالیت گروه های آدمکشان زنجیره ه ای و شناسایی قاچاق چیان در نقاط مرزی یاری دهد. تکنیک های داده کاوی هم چنین در مباحث مرتبط با ماموران اطلاعاتی توسط افرادی که بسیاری از منابع داده های بزرگ و حجیم را به عنوان بخشی از فعالیت های مرتبط به امور امنیتی ذکر می کنند مورد استفاده قرار می گیرد.
ادامه دارد 