اندازهگیری کارایی

اندازهگیری کارایی

در بررسی آماری کارایی یک دستهبند، از یک مجموعه که شامل تعداد مشخصی نمونهی آموزشی دارای برچسب است استفاده میشود. برای این کار، قسمتی از این نمونهها و یا تمام مجموعه، به عنوان مجموعه آموزشی ، در اختیار دستهبند برای آموزش قرار میگیرد. پس از آموزش، دسته بند به وسیلهی زیرمجموعهای از نمونهها، به عنوان نمونههای آزمایشی، محک زده میشود. نمونههای موجود در مجموعهی آزمایشی، بسته به نوع آزمون کارایی، میتواند عضو مجموعه آموزشی بوده و یا متفاوت با آن باشند.
نرخ دستهبندی یا صحت پرکاربردترین و سادهترین معیار اندازهگیری کارایی هر دستهبند است. این معیار برابر است با نسبت تعداد نمونههای درست دستهبندی شده به تعداد کل نمونهها. براساس این تعریف، نرخ خطای دستهبندی از رابطه زیر بدست میآید:
1
مقادیر دقت و بازخوانی نیز معیارهای مناسبی برای ارزیابی دستهبندها میباشند. که اخیرا برای ارزیابی رقابت بین اشتباه-مثبت و درست-مثبت استفاده میشود. در ادامه این معیارها معرفی میشود.
معیاردقت : احتمال مثبت بودن نمونههایی که مثبت اعلام شدهاند.
2
معیار بازخوانی : احتمال مثبت اعلام کردن نمونههای دسته مثبت.
3
معیار اختصاص : احتمال منفی اعلام کردن نمونههای دسته منفی.
4
که در این معیارها، دسته مثبت، دسته مورد بررسی است و دسته منفی به سایر دستهها گفته میشود.
تصدیق متقابل
یک روش برای ارزیابی آماری دستهبند، تصدق متقابل[5] میباشد. در این تکنیک برای ارزیابی کارایی دستهبند، نمونهها را به صورت تصادفی به دو گروه که مکمل یکدیگر هستند، تقسیم میکنند. با یک گروه سیستم را آموزش داده و با گروه دیگر سیستم آموزش دیده را مورد آزمایش قرار میدهند. با این کار از تطبیق بیش از حد مدل بر روی دادههای آموزشی جلوگیری میشود و نتایج بدست آمده از ارزیابی، دارای درجه اطمینان بیشتر خواهد بود. برای اطمینان بیشتر از نتایج، تصدیق متقابل در چندین مرحله صورت تکرار شده و در هر مرحله، از تقسیمبندی متفاوتی برای نمونهها استفاده میشود. در پایان از نتایج تمامی تکرار آزمایشها میانگینگیری صورت میگیرد.
در ادامه روشهای مختلف تطبیق متقابل توضیح داده میشود.
تصدیق زیر گروه تصادفی : در این روش، نمونهها به صورت تصادفی به دو گروه آموزشی و آزمایشی تقسیم میشوند. سپس دستهبند به وسیلهی نمونههای آموزشی، آموزش داده میشود و با استفاده از مجموعه دیگر آزمایش شده و کارایی محاسبه میشود. این عملیات چندین بار انجام میگیرد و در نهایت میانگین آنها به عنوان کارایی دستهبند ارائه میشود. با توجه به تصادفی انتخاب شدن مجموعههای آموزشی و آزمایشی، مهمترین مشکل این روش امکان عدم انتخاب بعضی از نمونهها به عنوان عضو یکی از دو گروه و یا انتخاب بیش از یک بار بعضی از نمونهها میباشد.
تصدیق متقابل k قسمت : در روش ابتدا مجموعه نمونهها به K دسته تقسیم میشوند. در هر مرحله نمونههای k-1 دسته به عنوان مجموعه آموزشی در نظر گرفته میشود و با استفاده از یک دسته دیگر کارایی سیستم دستهبند ارزیابی میشود. در نهایت کارایی سیستم برابر با میانگین کارایی در همه مراحل میشود. در این روش از همه نمونهها برای آموزش و آزمایش استفاده میشود.
تصدیق یکی در مقابل بقیه : یک روش دیگر، تصدیق یکی در مقابل بقیه است. در این روش، هر نمونه یک بار به عنوان نمونه آزمایشی انتخاب میشود و از سایر نمونهها برای آموزش استفاده میشوند. این روش بر روی تمامی نمونهها انجام میشود. در پایان، کارایی الگوریتم برابر نسبت تعداد نمونههای درست دستهبندی شده به کل است.
الگوریتم نزدیکترین همسایه
یکی از الگوریتمهای معروف دستهبندی، الگوریتم نزدیک همسایه است؛ با این که از معرفی آن چندین دهه میگذرد، این روش همچنان محبوب بوده و کاربرد بسیاری در مسائل مختلف دارد. دلیل این موضوع سادگی پیادهسازی و کارایی بالا این روش است. به علاوه، این الگوریتم را به سادگی میتوان در مسائل مختلف به کار برد. الگوریتم نزدیکترین همسایه از یک قانون بسیار ساده در عمل دستهبندی استفاده میکند. نمونههایی که شباهت بیشتری با یکدیگر دارند(در فضای ویژگیها در نزدیکی یکدیگر قرار گرفتهاند)، به احتمال بالا در یک دسته قرار دارند. بر طبق این، در الگوریتم نزدیکترین همسایه، برای بدست آوردن دستهی نمونهی پرسوجو شده ، بر اساس یک معیار شباهت(تفاوت) ، نزدیکترین نمونه، از مجموعهی نمونههای آموزشی تعیین میشود. سپس الگوریتم دستهی این نمونه را به عنوان دستهی نمونهی پرسوجو شده اعلام میکند.
به عنوان مثال، شکل 1 نحوه بدست آوردن دستهی نمونهی پرسوجو شده را توسط الگوریتم نزدیکترین همسایه، در یک فضای ویژگی دو بعدی و در مسئلهای با سه دسته نمایش میدهد. در این مثال، از معیار فاصله اقلیدسی برای بدست آوردن نزدیکترین همسایه استفاده شده است.

مسئلهی سه دستهای، دستهی اول با علامت مثلث(آبی) و دستهی دوم با علامت دایره(قرمز) و دسته سوم باعلامت مربع(سبز) مشخص شدهاند. علامت ضربدر(سیاه) نشان دهندهی نمونهی پرسوجو شده است.
در مثال شکل 1 ، دستهبند نزدیکترین همسایه، نمونهی پرسوجو شده را به دسته دوم که با علامت دایره(قرمز) مشخص شده است، انتساب میدهد.
تعریف مسئله

Share