شکل ۲-۱ مراحل فرایند کشف دانش و جایگاه داده کاوی(آخوندزاده نوقابی، ۱۳۸۸).
انواع داده کاوی
در عمل دو هدف مهم و اساسی داده کاوی، پیش بینی[۱۲] و تشریح[۱۳] است. در پیش بینی، بعضی از متغیرها یا حوزه هایی از مجموعه های داده ای به منظور پیش بینی ارزش ناشناخته یا آینده ی داده های دیگر مورد استفاده قرار می گیرند، از سوی دیگر تشریح، بر یافتن الگوهای تشریحی داده ها که می توانند به وسیله انسان تعبیر شوند تمرکز می نماید. در نتیجه داده کاوی را می توان در یکی از گروه های زیر جای داد:

        • در داده کاوی پیش بینی کننده با بهره گرفتن از داده ها، مدل هایی برای پیش بینی مقادیر متغیرهای مورد نظر تولید می گردد.

      (( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

    • داده کاوی تشریحی با بهره گرفتن از الگوهایی که در اعداد می یابد به تجزیه و تحلیل و علت یابی یک یا چند پدیده می پردازد.

ازنظر پیش بینی کننده، هدف از داده کاوی تولید مدلی است که با بهره گرفتن از یک کد اجرایی، وظایفی چون پیش بینی، دسته بندی، تخمین مقدار، تخمین عملکرد و غیره را انجام دهد.
از نظر تشریح کننده، هدف حصول درکی کامل از سیستم تحلیل شده به وسیله الگوهای پنهان در آن و روابط درون مجموعه های داده ای است(مرکز مطالعات و برنامه ریزی شهر تهران ۱۳۸۸، ص ۳).
دلایل استفاده از داده کاوی
در سال های اخیر استفاده از تکنیک های داده کاوی رشد بسیار سریعی داشته است که از دلایل این امر می توان به موارد ذیل اشاره کرد(Gupta 2006):

    1. سهولت تولید داده ها با بهره گرفتن از پردازش تحلیلی برخط[۱۴].
    1. افزایش داده های ایجاد شده از طریق ابزارهای الکترونیکی از قبیل تراکنش های خرید، عملیات بانک، کارت های اعتباری و ماهواره ها.
    1. افزایش داده های ایجاد شده از طریق صفحات وب.
    1. افزایش حجم ابزاهای ذخیره داده ها شامل انواع حافظه ها.
    1. کاهش هزینه های پردازش اطلاعات.
    1. وجود محیط های رقابتی با توجه به جهانی شدن کسب و کار.
    1. وجود نرم افزارهای مفید داده کاوی.

پیش نیازهای یک داده کاوی موفق
برای انجام یک داده کاوی موثر، لازم است قبل از شروع به موارد زیر توجه داشت(Gupta 2006):

    1. ضمن آشنایی کامل با موضوع مورد بحث، مسئله ی داده کاوی به درستی تعریف و تبیین شده باشد.
    1. داده ها موجود باشند.
    1. داده های موجود مرتبط، کافی، مناسب و پاک سازی شده باشند.
    1. مسئله با روش های پرس و جو یا سایر ابزارهای کار با بانکهای اطلاعاتی قابل حل نباشد.
    1. نتایج حاصل از داده کاوی قابل اجرا و عملیاتی باشد.

مراحل فرایند داده کاوی ( استاندارد [۱۵]CRISP-DM )
فرایند CRISP-DM یک متدولوژی استاندارد داده کاوی می باشد که در اواخر سال ۱۹۹۶ توسط سه شرکت بزرگ دایملر کرایسلر (بنز)[۱۶]، SPSS، و NCR ایجاد گردید. این متدولوژی، یک مدل فرایندی برای داده کاوی ارائه می دهد که مروری بر چرخه ی عمر هر پروژه ی داده کاوی بوده و شامل مراحل متناظر با یک پروژه، وظایف مربوطه و ارتباط بین این وظایف می باشد.
گام های این متدولوژی در ادامه بیان شده است.
شکل۲-۲ مراحل فرایند CRISP-DM (Gupta,2006)
چرخه ی عمر یک پروژه ی داده کاوی، شامل ۶ مرحله می باشد که در شکل۲-۲ نشان داده شده است. توالی این مراحل انعطاف پذیر می باشد و برگشت به مراحل قبلی و مسیر های آزاد بین مراحل گاهی مورد نیاز است. جهت پیکان هایی که در شکل مشاهده می گردد، بیان کننده ی مهم ترین و تکراری ترین وابستگی های بین مراحل می باشد.
شناخت کسب و کار[۱۷]
در این مرحله لازم است که اهداف پروژه و نیازها از دیدگاه کسب و کار به طور مشخص تبیین شود. توجه به این مرحله بسیار ضروری است و با شناخت کامل اهداف می توان از قابلیت های داده کاوی بهترین استفاده را کرد و الگوریتم مناسب را انتخاب نمود(هن و کمبر ۲۰۰۶).
گام های این مرحله عبارتند از:

    • تعیین اهداف کسب و کار ( مفاهیم اولیه، اهداف و معیارهای موفقیت).
    • ارزیابی موقعیت ( موجودی منابع، نیازمندی ها، فرضیه ها و محدودیت ها، ریسک ها و روابط، اصطلاحات و هزینه و فایده).
    • تعیین اهداف داده کاوی ( اهداف داده کاوی و معیار موفقیت).
    • تولید طرح پروژه.

شناخت داده ها[۱۸]
در این مرحله مواردی از قبیل موجود بودن داده ها، محرمانگی داده ها، چگونگی دسترسی به داده ها و میزان سیستمی بودن داده ها بررسی می شود. تحلیل صحیح در این مرحله ممکن است به تجدید نظر در مرحله یک (شناخت کسب و کار) بیانجامد. جمع آوری و آشنایی با داده ها، شناخت مسائل مربوط به کیفیت داده ها و مشاهده ی اطلاعات اولیه ی نهانی یا زیرمجموعه های داده ها که ممکن است برای آنالیز جالب باشند از وظایف این مرحله است (هن و کمبر ۲۰۰۶).
گام های این مرحله عبارتند از:

    • جمع آوری اولیه داده ها
    • توصیف داده ها
    • شناسایی داده ها
    • تایید کیفیت داده ها
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...