ارائه یک روش انتخاب ویژگی مبتنی بر شباهت ویژگی ها برای کاربردهای خوشه بندی

مشخصات پژوهش

عنوان	ارائه یک روش انتخاب ویژگی مبتنی بر شباهت ویژگی ها برای کاربردهای خوشه بندی
نوع پژوهش	پایان نامه های تقاضا محور و غیر تقاضا محور
کلیدواژه‌ها	انتخاب ویژگی، کاهش ابعاد، بدون ناظر، خوشه بندی عناصر ، شناسایی ویژگی نامرتبط، بهبود عملکرد
سال	1398
پژوهشگران	محسن رحمانی(استاد راهنما)، محمد حسین شکور(استاد مشاور)

چکیده

امروزه یکی از نیازهای اساسی هر تحلیل گر داده ای، مسأله انتخاب «ویژگی های مرتبط» در یک مجموعه داده و حذف یا نادیده گرفتن ویژگی های «نامرتبط» یا کم اهمیت (که سهم چندانی در بهبود عملکرد مدل های یادگیری ندارند) می باشد.. انتخاب ویژگی یکی از مفاهیم کلیدی در یادگیری ماشین می باشد. روش های انتخاب ویژگی نقش مهمی در عملکرد بهینه مدل های یادگیری دارند.. در بیشتر راهبردها در زمینه انتخاب ویژگی اغلب از روش های با ناظر بهره برده اند به همین دلیل ما را بر آن داشت تا در این پژوهش یک روش نوین در زمینه انتخاب ویژگی مبتنی بر شباهت ویژگی ها در مجموعه داده های بدون برچسب ارائه دهیم ، تا بتوان ویژگی های موثر را در مجموعه داده های بدون برچسب انتخاب و وی‍ژگی های ناکارآمد را حذف کرد. با خوشه بندی داده ها و بدست آوردن بهره اطلاعاتی ویژگی های مختلف نسبت به خوشه ها، به نوعی توانستیم یک روش با ناظر را برای کاربردهای بدون ناظر تعمیم دهیم. با اعمال روش پیشنهادی بر مجموعه داده های گوناگون و ارزیابی به شیوه های مختلف نظیر 1- مقایسه با روش با ناظر از نظر تخمین میزان بهره اطلاعاتی 2- مقایسه با روش های انتخاب ویژگی بدون ناظر مبتنی بر وزن به عنوان معیار ارزیابی، از نظر میزان دقت در شناسایی ویژگی های نامرتبط و میزان بهبود عملکرد مدل های یادگیری 3- میزان توانایی روش پیشنهادی در شناسایی ویژگی های کاملا نامرتبط اضافه شده به مجموعه داده اصلی و مقایسه با روشهای دیگر4- محاسبه میانگین silhouette (به عنوان یکی از ملاک های ارزیابی درونی خوشه بندی) قبل و بعد از اعمال کاهش ویژگی، و مشاهده نتایج قابل قبول در اکثر موارد فوق، می توانیم ادعا کنیم روش مطرح شده در شناسایی و تمییز دادن ویژگی های مرتبط و نامرتبط موجود در مجموعه داده ها، عملکرد مناسبی دارد و می تواند به عنوان یک روش قابل اطمینان در زمینه انتخاب ویژگی و کاهش ابعاد، در مطالعات آتی داده کاوی مورد استفاده تحلیل گران داده قرار بگیرد.

محمد حسین شکور

مشخصات پژوهش

چکیده