انتخاب نمونه

انتخاب نمونه

ساختارهای دیگری نیز وجود دارد که از ترکیب دو مورد گفته شده و همچنین اضافه شدن روشهای تحلیلگر میان دستهبندها ساخته میشوند که به علت خارج بودن از موضوع، از گفتن آن خود داری شده است.
رایگیری بین دستهبندها
در یک دستهبند از نوع تصمیمگیری دستهجمعی، پس از تولید خروجی توسط تمامی اجزای تشکیل دهنده، به مکانیزیمی نیاز است تا به وسیلهی آن، خروجی نهایی از نتایج بدست آمده استنتاج شود. در الگوریتمهای مختلف، این استنتاج به روشهای متفاوتی صورت میگیرد. در این قسمت به بررسی مختصر این روشها پرداخته شده است.
سادهترین روش استنتاج از نتایج بدست آمده از مجموعه دستهبندها، رایگیری ساده است. در این روش، هر کدام از دستهبندها یک رای را به یک دستهی مورد نظر خود میدهد. در پایان دستهای که بیشترین رای را آورده باشد، برنده و به عنوان خروجی تصمیمگیری دستهجمعی اعلام میشود. در روش دیگری که بر گرفته از همین روش رایگیری ساده است، هر کدام از دستهبندها، نظر و رای خود را با یک درجهی اطمینان بیان میکنند. در واقع در این روش هر دسته ممکن است چند دسته را به عنوان خروجی با درجه اطمینان متفاوت اعلام کنند. در نهایت دستهی برنده، دستهای است که بیشترین مجموع درجهی اطمینان را به خود اختصاص دهد.
رایگیری وزندار، یک روش قدرتمند در این زمینه محسوب میشود. در این روش، بر اساس یک مکانیزم تنظیم وزن، به هر یک از دستهبندها یک وزن اختصاص داده میشود. این وزن نشان دهندهی میزان درستی و قدرت تشخیص دستهبند مورد نظر است. در ادامه، حاصلجمع وزنها به ازای هر دسته محاسبه میشود. در نهایت، دستهای که بیشترین حاصلجمع رای را به خود اختصاص داده است، به عنوان دستهی برنده انتخاب میشود.
برای بدست آوردن خروجی نهایی روشهای رایگیری متنوع دیگری نیز تا کنون استفاده شدهاند. رایگیری رتبهبندی، Borda و … مثالهایی هستند که میتوان از آنها برای انجام عمل رایگیری میان دستهبندها، در یک الگوریتم تصمیمگیری دستهجمعی بهره جست.
معرفی چند روش تصمیمگیری دستهجمعی پرکاربرد
تا کنون الگوریتمهای تصمیمگیری دستهجمعی متنوعی ارائه شدهاند که با استفاده از آنها، کارایی انواع روشهای دستهبند بهبود یافته است. بیشتر این الگوریتمها با استفاده زیرمجموعههای متفاوت از نمونهها، دستهبندهای متمایز خود را طراحی و تولید میکنند. الگوریتم های Bagging، Boosting و AdaBoost از این دسته الگوریتمها میباشند. گروه دیگر، دستهبندهایی را در اختیار میگیرند که هر یک تنها به زیرمجموعهای متفاوت از ویژگیها دسترسی دارد. این قسمت به معرفی و بررسی چند مدل تصمیمگیری دستهجمعی پرداخته است.
الگوریتم Bagging
کلمه Bagging از ترکیب ابتدای دو کلمه در عبارت Bootstrap aggregation بدست آمده است. در این روش، هر کدام از دستهبندها به زیرمجموعهای از نمونههای آموزشی دسترسی دارند که برای ایجاد این زیرمجموعهها، از متد Boostrap در بین مجموعه نمونههای آموزشی استفاده میشود. برای این کار از میان نمونههای آموزشی، نمونهبرداری همراه با جایگذاری انجام میشود به صورتی که به طور میانگین هر دستهبند با 63.2% نمونهها آموزش میبیند. اگر مجموعهی آموزشی شامل N نمونه باشد، اثبات خواهد شد که هر نمونه با مقدار احتمال 1-(1-1/N)N برای هر دستهبند انتخاب میشود. بر اساس این احتمال اگر تعداد نمونهها به سمت بینهایت میل کند ( N(( ) مقدار عبارت آن به عدد 0.632 ( 1-1/e ) میل خواهد کرد. بنابراین به طور میانگین هر دستهبند 63.2% نمونهها را در اختیار دارد.
همچنین Bagging سنتی از دستهبندهای یکسان و مشابه به عنوان اجزای تشکیل دهندهی خود بهره میبرد و از رایگیری ساده برای رسیدن به نتیجه نهایی استفاده میکند. یکی از نکات مهمی که باید در مورد Bagging توجه کرد این است که این روش، این امکان وجود دارد که از تمامی نمونهها برای ایجاد و آموزش دستهبندها استفاده نشود. در صورتی که ممکن است نمونههایی که به هیچ دستهای اختصاص داده نمی شوند دارای اطلاعات ارزشمندی باشند و بتوانند در عمل دستهبندی بسیار مفید عمل کنند.
این الگوریتم زمانی کارایی بهتری را از خود نشان میدهد که دستهبند استفاده شده در آن نسبت به تغییر نمونههای آموزشی حساس بوده و بتوان از این طریق دستهبندهای متمایز و با خطای متفاوت و گوناگون ایجاد کرد. در مقابل، Bagging در الگوریتمهایی که این روش نمونهبرداری تمایزی در دستهبند نهایی آنها ایجاد نمیکند، نمیتوانند کارایی را به میزان محسوسی افزایش بدهد.
الگوریتم Boosting
روش معرف و پرکارد دیگر، Boosting است. این روش نیز همانند Bagging، جز روشهای نمونهبرداری محسوب میشود. با این تفاوت که در Boosting مکانیزم نمونهبرداری متفاوت است. در Bagging احتمال انتخاب هر نمونه با دیگر نمونهها برابر و مساوی 1/N است در صورتی که در Boosting احتمال انتخاب هر نمونه در گذر زمان بر اساس کارایی دستهبندها تغییر کرده و تنظیم میشود. در این الگوریتم، اجزای تشکیل دهنده به ترتیب ایجاد میشوند و احتمال انتخاب نمونهای که در دستهبندی توسط دستهبند قبلی به اشتباه دستهبندی شود، افزایش پیدا خواهد کرد.
اساس کار Boosting بر پایهی یادگیرندهی ظعیف است. اثبات میشود که با تغییر در پخشش نمونهها، یادگیرندهی ظعیف به دستهبند قوی تبدیل خواهد شد. البته این روش میتواند کارایی دستهبندهای کارا و قوی را افزایش بدهد، اما این افزایش ناچیز است.
تاکنون انواع متنوعی از Boosting ارائه شدهاند. در ادامه به بررسی معروفترین و پرکاربردترین آنها، یعنی AdaBoost میپردازیم.
الگوریتم AdaBoost
AdaBoost معروفترین و پرکاربردترین روشهای توسعه یافته از روش Boosting است. این روش به طراح مدل تصمیمگیر دستهجمعی این اجازه را میدهد که تعداد اجزا را مرتبا افزایش دهد تا خطای دستهبندی بر روی نمونههای آموزشی به اندازهی دلخوا کوچک شود.
در AdaBoost هر کدام از دستهبندها بر اساس توضیع احتمالی نمونهها، مجموعه نمونههای آموزشی خود را انتخاب میکنند. در ابتدا در این روش احتمال انتخاب هر نمونه برابر 1/N است و در ادامه این احتمال تغییر میکند. احتمال نمونههایی که در مرتبه t و توسط دستهبند ht درست دستهبندی شوند، برای دستهبند ht+1 کاهش پیدا کرده و اگر نمونهای به اشتباه دستهبندی شود، احتمال حضورش در مجموعهی آموزشی ht+1 افزایش مییابد. در نهایت برای نتیجهگیری از میان دستهبندهای موجود، رایگیری وزنی صورت میگیرد. رای هر دستهبند بسته به کارایی و نمونههای آن دستهبند بدست میآید.
یک نکته قابل توجه در مورد AdaBoost این است که میتوان نشان داد که کارایی بالای آن به دلیل مکانیزم رایگیری نهایی آن نیست بلکه به دلیل روش نمونهبرداری انطباقی قدرتمند آن است.
الگوریتم زیرفضای تصادفی
روش زیرفضای تصادفی یکی از روشهای معروف ایجاد تصمیمگیری دستهجمعی است. این روش برخلاف دیگر روشهای دستهجمعی کردن بر پایهی نمونهبرداریهای متنوع از مجموعههای نمونهها عمل نمیکند، بلکه این روش با استفاده از زیرمجموعههای مختلف از مجموعه ویژگیهای فضای مسئله، دستهبندهای متنوع و متمایز را تولید میکند. با این عمل، هر کدام از دستهبندها با در اختیار داشتن تعداد محدودی از ویژگیها، دید متفاوتی را به فضای مسئله پیدا خواهد کرد و به صورت متفاوتی میتواند به حل آن بپردازد. همچنین در این روش معمولا نتیجهگیری نهایی توسط رایگیری ساده بدست میآید.
نام دیگر این روش Attribute Bagging نیز هست. دلیل این نامگذاری این است که در این روش، به همان صورتی که Bagging از مجموعه نمونهها، نمونهبرداری میکند، در این روش از میان ویژگیهای موجود در مسئله، برای دستهبندها مجموعه ویژگی متنوع تولید میشود.
فصل چهارم

Share