کاربرد داده کاوی در کشف دانش پنهان میان داده های سامانه ۱۳۷ شهرداری …

  • تولید گزارش نهایی
  • بازنگری مجدد پروژه
  • قابلیت های اساسی داده کاوی
    طبقه بندی[۲۳]
    طبقه بندی فرایند جستجوی مجموعه ای از مدل ها یا توابع است که کلاس های داده ها یا مفاهیم را توصیف یا تفکیک می نماید. تا بتوان از این مدل برای پیش بینی کلاس اشیا استفاده کرد. مدل استخراج شده بر پایه تحلیل مجموعه ای داده های آموزشی یا داده هایی که کلاس آن ها مشخص است می باشد(هن و کمبر ۲۰۰۶).
    فرایند طبقه بندی در واقع نوعی یادگیری با ناظر می باشد که طی دو مرحله انجام می گیرد. در مرحله اول مجموعه ای از داده ها که در آن هر داده شامل تعدادی خصوصیتِ دارای مقدار و یک خصوصیت به نام خصوصیتِ کلاس می باشد، برای ایجاد یک مدل داده به کار می رود که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه داده هایی است که این مدل از روی آن ها ایجاد شده است. مرحله دوم اعمال فرایند طبقه بندی یا به کارگیری مدل داده ایجاد شده بر روی داده هایی است که شامل تمام خصوصیات داده هایی می شود که برای ایجاد مدل داده به کار گرفته شده اند، به جز خصوصیت کلاس این مقادیر، که هدف از عمل طبقه بندی نیز تخمین مقدار این خصوصیت می باشد(هن و کمبر ۲۰۰۶).
    پیش بینی[۲۴]
    پیش بینی به هر دو مورد پیش بینی مقادیر عددی و پیش بینی کلاس ها اشاره دارد. پیش بینی شامل شناسایی روند توزیع بر اساس اطلاعات در دسترس است. طبقه بندی و پیش بینی ممکن است نیاز به تجزیه و تحلیل مرتبط داشته باشند تا بتوانند صفاتی را که در فرایند طبقه بندی یا پیش بینی مشارکتی ندارند شناسایی و در صورت تمایل آن ها را حذف نمایند (هن و کمبر ۲۰۰۶).
    تحلیل خوشه ای[۲۵]
    خوشه بندی، یک جمعیت نامنظم را به مجموعه ای از زیرگروه های منظم تقسیم بندی می کند. برخلاف دسته بندی و پیش بینی که اشیا داده ها را بر اساس کلاس ها تحلیل می کنند، خوشه بندی اشیا داده ها را بدون در نظر گرفتن برچسب های کلاس تحلیل و آنالیز می نمایند. عمدتاً برچسب کلاس ها در داده های آموزشی به آسانی مشخص نیست زیرا این کلاس ها شناخته شده نمی باشند. خوشه بندی گاهی برای تعیین و تولید چنین برچسب هایی به کار می رود. به عبارت دیگر می توان خوشه بندی را به صورت دسته بندی تعریف کرد، با این تفاوت که دسته ها و برچسب آن ها از پیش تعریف شده نبوده و عمل دسته بندی، بدون نظارت انجام می گیرد.
    اشیا خوشه بندی شده بر اساس اصل ماکزیمم شباهت بین اعضا هر خوشه و مینیمم شباهت بین خوشه های مختلف گروه بندی می شوند. یعنی خوشه ها به گونه ای تنظیم می شوند که اشیا داخل هر خوشه بیشترین شباهت را با یکدیگر داشته باشند. معیار شباهت وقتی که همه مشخصه ها پیوسته هستند، معمولا با فاصله اقلیدسی بیان می شود، در غیر این صورت یک معیار مناسب برای آن در نظر گرفته می شود.
    به عنوان شاخه ای از آمار، خوشه بندی برای سال ها به صورت وسیعی مورد مطالعه قرار گرفته و بر روی تحلیل فاصله متمرکز شده است. ابزارهای خوشه بندی که مبتنی بر K-means و K-mediods و روش هایی مانند آن ها هستند در خیلی از بسته های آماری مانند Spss، S-plus و Sas وجود دارند. آنالیز خوشه ای کاربردهای گسترده ای دارد که عبارتند از: شناسایی متن، آنالیز داده، پردازش تصویر و تحقیقات بازار و … ( هن و کمبر، ۲۰۰۶، رومرو ۲۰۰۷)
    تخمین[۲۶]
    تخمین با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند، سرو کار دارد. در تخمین، داده های ورودی در قالب متغیرهای ورودی به سیستم داده می شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اغتباری می باشد.
    در عمل، تخمین اغلب برای دسته بندی استفاده می شود. روش تخمین فواید زیادی دارد که مهم ترین آن این است که در آن اطلاعات را می توان مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که یک شرکت تولید پوتین های اسکی برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دسته بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده اند، پس به راحتی می توان به صورت تصادفی، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود؛ در حالی که اگر مدل تخمین، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصد هزار نفر از محتمل ترین کاندیداها فرستاد. پر واضح است که احتمال پاسخ گیری و ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات می باشد
    مدل های رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده کاوی برای تخمین می باشد (شهرابی، ۱۳۹۰).
    گروه بندی شباهت یا قوانین وابستگی[۲۷]
    قوانین وابستگی برای تعیین ویژگی های هم زمانی هستند که در وقوع یک پدیده رخ می دهند. به عبارت دیگر عمل گروه بندی شباهت یا قوانین وابستگی احتمال وقوع و یا عدم وقوع هم زمان ویژگی ها را تعیین می نماید.به عبارت ساده تر گروه بندی شباهت تعیین می کند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپرمارکت قرار می گیرند، چیزی که آن را تحلیل سبد بازار می نامیم برای دانلود متن کامل پایان نامه به سایت azarim.ir مراجعه نمایید.

    ۲۸”>[۲۸]
    گروه بندی شباهت بک روش ساده برای ایجاد قوانین از داده هاست. اگر دو قلم کالا مثلا شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، می توان دو قانون وابستگی ایجاد کرد(شهرابی، ۱۳۹۰):

    • افرادی که شیر خشک نوزاد می خرند هم چنین با احتمال ۱ Pپوشک نوزاد را می خرند.
    • افرادی که پوشک نوزاد می خرند هم چنین با احتمال ۲ P شیر خشک نوزاد را هم می خرند.

    تعیین قواعد وابستگی معمولاً در بانک اطلاعات تراکنش ها کاربرد دارد. در این روش که به صورت قواعد اگر_ آنگاه (X->Y) بیان می شود، هم زمان واقع شدن X و Y با Support و شانس وقوع قاعده با Confidence بیان می شود. Support بالای یک قاعده، نشان دهنده ی تکرار زیاد و نیاز به توجه ویژه به آن و Confidence بالا نشان دهند ی صحت کافی قاعده برای استفاده در تصمیم گیری هاست. مقادیر Support و Confidence به روش زیر محاسبه می گردد:
    تعداد کل/تعداد تکرارX =Support(X)
    تعداد کل/تعداد تکرارX و Y باهم =Support(XY)
    Confidence(X->Y) =Support (XY)/Support(X)
    توصیف و نمایه سازی[۲۹]
    گاهی اوقات هدف داده کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده ای پیچیده در جریان است. نتایج نمایه سازی درک ما را از مردم، محصولات یا فرایندهایی که داده ها را در مرحله اول تولید کرده اند افزایش می دهد. درحقیقت نمایه سازی یک روش آشنا برای بسیاری از مسائل است که نیاز به درگیر شدن با تحلیل پیچیده داده ها ندارد. به عنوان مثال مطالعه و نظرسنجی یک روش رایج برای ساختن نمایه مشتریان است. مطالعات و نظر سنجی ها نشان می دهند که مشتریان بالفعل و بالقوه چه مشخصاتی دارند یا حداقل این که چطور پاسخ دهندگان به سوالات پاسخ می دهند.
    نمایه ها معمولاً مبتنی بر متغیرهای جمعیت شناختی هم چون موقعیت جغرافیایی، جنسیت و سن هستند؛ از آن جا که تبلیغات با توجه به همین متغیرها انجام می شود، نمایه های جمعت شناختی را می توان مستقمیاً به استراتژی های سازمانی تبدیل کرد. به طور مثال از نمایه های ساده برای تعیین حق بیمه استفاده می شود؛ یک پسر ۱۷ ساله بیش تر از یک زن ۶۰ ساله برای بیمه خودرو بایستی پرداخت کند.
    درخت تصمیم گیری ابزار مفیدی برای نمایه سازی می باشد؛ قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی استفاده نمود(شهرابی، ۱۳۹۰).
    دسته بندی الگوریتم های داده کاوی
    به طور کلی الگوریتم های داده کاوی را می توان به سه دسته اصلی تقسیم نمود(نخعی زاده، ۱۳۸۸):

    1. الگوریتم های با رویکرد یادگیری ماشینی:

    از این دسته الگوریتم ها می توان به الگوریتم های استنتاج مبتنی بر قواعد[۳۰]، درخت های تصمیم[۳۱]، شبکه های عصبی[۳۲] و خوشه بندی بر مبنای مفاهیم[۳۳] اشاره کرد.

    1. الگوریتم های با رویکرد آمار: