۱۴۰۴/۰۱/۲۳
مریم امیری

مریم امیری

مرتبه علمی: استادیار
ارکید: https://orcid.org/۰۰۰۰-۰۰۰۲-۷۴۱۱-۹۵۵۲
تحصیلات: دکترای تخصصی
اسکاپوس: ۵۷۱۴۶۸۴۸۹۰۰
دانشکده: دانشکده فنی مهندسی
نشانی: دانشگاه اراک
تلفن: ۳۲۶۲۵۵۲۲

مشخصات پژوهش

عنوان
یک روش انتخاب ویژگی مبتنی بر فیلتر برای دسته‌بندی
نوع پژوهش
پایان نامه های تقاضا محور و غیر تقاضا محور
کلیدواژه‌ها
انتخاب ویژگی، روش فیلتر، دسته‌بندی، طبقه‌بندی، تجزیه و تحلیل مولفه‌ اصلی، روش آماری کای دو، chi-square، PCA.
سال 1403
پژوهشگران مریم امیری(استاد راهنما)، راضیه نقاش(دانشجو)

چکیده

انتخاب ویژگی نقش اساسی در افزایش عملکرد و تفسیر پذیری مدل‌های یادگیری ماشین و تشخیص الگو، به ‌ویژه در وظایف دسته‌بندی دارد. چرا که مجموعه داده‌ها دارای تعداد زیادی ویژگی هستند که ممکن است شامل ویژگی‌های اضافی یا نامرتبط باشند. ابعاد بالا در مجموعه داده‌ها یکی از چالش‌های اصلی در دسته‌بندی داده‌ها است. همچنین ویژگی‌های نامرتبط و زائد تاثیر منفی بر پیچیدگی و عملکرد الگوریتم‌های دسته‌بندی داده‌ها دارند در نتیجه الگوریتم‌ها عملکرد ضعیفی را ثبت می‌کنند. یکی از روش‌های انتخاب ویژگی، روش فیلتر است. این روش از معیارهای مختلفی بر اساس تئوری اطلاعات و آمار برای تعیین قدرت رابطه بین یک ویژگی و متغیر هدف استفاده می‌کند و می‌تواند برای رتبه‌بندی ویژگی‌ها و انتخاب زیرمجموعه بهینه با توجه به معیارهای انتخاب از پیش تعیین شده استفاده شود. روش‌های فیلتر ویژگی‌های کلی داده‌ها را تجزیه و تحلیل کرده و ویژگی‌ها را بدون نیاز به الگوریتم یادگیری ارزیابی می‌کنند در نتیجه عملکرد آن‌ها کمتر به دسته‌بندی‌کننده خاصی وابسته است. از روش‌های رایج در انتخاب ویژگی، روش‌های تجزیه و تحلیل مولفه اصلی و روش آماری Chi-square می‌باشند. تکنیک تجزیه و تحلیل مؤلفه اصلی برای کاهش ابعاد فضای ویژگی با تبدیل ویژگی‌های اصلی به یک زیرفضای کم‌بعد و در عین حال حفظ بیشترین واریانس در داده‌ها، و روش Chi-square برای انتخاب متمایزترین ویژگی‌ها از فضای تبدیل شده بر اساس ارتباط آماری آن‌ها با متغیر هدف اعمال می‌شود. در این پژوهش، یک رویکرد ترکیبی مبتنی بر روش فیلتر جدید پیشنهاد شده است که تجزیه و تحلیل مؤلفه اصلی را با روش انتخاب ویژگی Chi-square برای بهینه‌سازی مرحله پیش‌پردازش داده، ادغام می‌کند. هدف رویکرد پیشنهادی استفاده از نقاط قوت مکمل تجزیه و تحلیل مؤلفه اصلی در گرفتن الگوهای پیچیده و کاهش چند خطی و افزونگی، همراه با قدرت تمایز Chi-square برای شناسایی و انتخاب ویژگی‌های اطلاعاتی برای دسته‌بندی است. اعتبار سنجی تجربی با استفاده از چندین مجموعه داده‌های متنوع انجام می‌شود و عملکرد روش پیشنهادی را با تکنیک‌های انتخاب ویژگی مرسوم مانند تجزیه و تحلیل مولفه‌های اصلی و به‌دست آوردن اطلاعات (PCA-IG)، اهمیت جنگل تصادفی (RFI) ، انتخاب ویژگی رو به جلو (FFS) و روش ترکیبی Chi+PCA مقایسه می‌کند. نتایج تجربی نشان می‌دهد که رویکرد ترکیبی پیشنهاد شده، به دقت دسته‌بندی برتر و تعمیم مدل در حالی که کارایی محاسباتی را حفظ می‌کند، در مقایسه با سایر روش‌ها، دست می‌یابد. این پژوهش، با ارائه یک چارچوب هم‌افزایی که کاهش ابعاد و ارزیابی ارتباط آماری را ترکیب می‌کند، به پیشرفت روش‌های انتخاب ویژگی کمک می‌کند، در نتیجه مدل‌های دسته‌بندی موثرتر و قابل تفسیرتر را تسهیل می‌کند.