ارائه روش انتخاب ویژگی مبتنی بر خوشهبندی در مسئله تشخیص هرزنامه

مشخصات پژوهش

عنوان	ارائه روش انتخاب ویژگی مبتنی بر خوشهبندی در مسئله تشخیص هرزنامه
نوع پژوهش	مقاله چاپ‌شده
کلیدواژه‌ها	انتخاب ویژگی، ایمیل، خوشه بندی، دسته بندی، کاهش ویژگی، هرزنامه
سال	1401
مجله	مدیریت اطلاعات
شناسه DOI
پژوهشگران	وحید نصرتی ، محسن رحمانی

چکیده

یکی از راه‌های تشخیص هرزنامه، دسته‌بندی ایمیل‌ها به دو دسـته هرزنامـه و غیرهرزنامـه اسـت. کـارایی بالای روش‌های یادگیری ماشین در مسائل گوناگون، باعث توسعه وسیع آنها در دسته‌بندی متون شده است. استفاده از یک سازوکار کاهش ویژگی کارآمد در الگوریتم‌های یادگیری ماشین مبتنی بر محتوا به منظور استخراج یک بـردار ویژگی کارآمد از میان تعداد بسیار زیادی ایمیل نقش مهمی دارد. برخلاف روش‌های پیشین که فقـط ویژگـی‌هـای برتر را انتخاب کرده و باقی ویژگی ها را نادیده مـی‌گیرنـد، در روش پیشـنهادی در ایـن مقالـه سـعی شـده اسـت از ویژگی‌های انتخاب‌نشده نیز استفاده شود. روش کار به این صورت است که ابتدا یک انتخاب ویژگی اولیه اعمال شده و تعدادی ویژگی انتخاب میشود. سپس، ویژگی های انتخاب نشده خوشه بندی شده و هر خوشه به یک ویژگی جدید نگاشت میشود و بردار ویژگی نهایی شامل ویژگی‌های انتخاب‌شده و ویژگی‌های نگاشت شـده از هـر خوشـه خواهـد بود. در پژوهش حاضر، با اعمال دو روش انتخاب ویژگی اولیه و همچنین دو تـابع نگاشـت ویژگـیهـای خوشـه، در مجموع، چهار روش ارائه شد و نتایج با استفاده از دو پایگاه داده PU2 و PU3 تجزیه و تحلیل شدند. نتایج حاصل از تجزیه و تحلیل انجام شده نشان داد که روش مبتنی بر انتخاب ویژگی اولیه DF و تـابع نگاشـت پیشـرفته، در بـین کلیه روشهای پیشنهادی، دارای بالاترین کارایی است. همچنین، روشهای پیشنهادی در مقایسه با انتخاب ویژگـی اولیه (بدون خوشه‌بندی) دارای کارایی بهتری هستند

محسن رحمانی

مشخصات پژوهش

چکیده