مشخصات پژوهش

صفحه نخست /استفاده از یک روش انتخاب ...
عنوان استفاده از یک روش انتخاب ویژگی مبتنی بر همسایگی برای دادههای ریز آرایه
نوع پژوهش پایان نامه های تقاضا محور و غیر تقاضا محور
کلیدواژه‌ها ریز آرایه، تمایز همسایگی، انتخاب ویژگی، چگالی، امتیاز فیشر، آنتروپی، رابطهی همسایگی
چکیده امروزه دادهها دارای ابعاد بسیار بزرگی هستند. تعداد دادهها هرچقدر زیادتر میشود، درک آن داده ها ، تجزیهوتحلیل و استخراج دانش معنادار از آنها دشوارتر می شود. یکی از مهمترین مواردی که درآن مجموعه دادههای فراوانی به وجود آماده در زمینه علم پزشکی شامل بیماریها و انواع سرطان ها می باشد. در نتیجه مبحث دادهکاوی و یادگیری ماشین اهمیت بیشتری پیدا میکند. ضرورت اینکه بتوانیم از روی دانش موجود به پیشبینی و تشخیص موارد نامعلوم و جدید دست یابیم. ریز آرایه ها مجموعه دادههای هستند که دارای ویژگیهای بسیار بالایی می باشند و تعداد نمونههای آنها معمولا کم است و برای ثبت بیان ژن ها کاربرد دارند. استفاده از تکنولوژی ریز آرایه و ترکیب آن با روش های انتخاب ویژگی تحقیق و توسعه، تشخیص و درمان بیماری ها را عملی می سازد. انتخاب ویژگی فرایندی است، که با توجه به یک معیار خاص مجموعه ای از ویژگی های بهینه را انتخاب می کند. میتوانیم با انتخاب ویژگی در نهایت به یک یا چند ویژگی دست یابیم که عامل اصلی یک بیماری هستند. تاکنون روش های زیادی برای انتخاب ویژگی به وجود آماده است. در این پژوهش ابتدا به بررسی روش های مختلف انتخاب ویژگی بر رویداده های ریز آرایه پرداخته شده است. در روش پیشنهادی ما در این پژوهش از دو الگوریتم برای انتخاب ویژگی استفاده شده است ابتدا به کمک الگوریتم توسعه یافته فیشر به صورت سریع درصدی از ویژگی های خوب را انتخاب می کنیم. امتیاز فیشر از معیار فاصله استفاده میکند و از طریق محاسبه واریانس بین کلاسی و واریانسهای درون کلاسی برای همه ویژگی ها امتیاز را حساب می کند. سپس به کمک الگوریتم دوم روش پیشنهادی محاسبات مربوط به شاخص تمایز همسایگی و آنتروپی را انجام میدهیم. آنتروپی، یکی از بهترین رویکرد ها در نظریه اطلاعات است که یک معیار عدم قطعیت دارد که اطلاعات متمایز یک زیرمجموعه دلخواه از ویژگی ها را مشخص میکند و به کمک مبحث چگالی و فاصله اقلیدسی مقدار ثابتی را برای شعاع همسایگی محاسبه می کنیم. برای ایجاد رابطهی همسایگی ابتدا باید نقاط هدف براساس چگالی تعیین گردد. چگالی یک نقطه به معنی تراکم نقاط اطراف آن نقطه می باشد. در مرحله بعد، اهمیت هریک از ویژگی ها محاسبه میشود سپس انتخاب ویژگی نهایی براساس آن انجام می پذیرد. به منظور بررسی کارایی روش پیشنهادی بر روی 5مجموعه داده ریز آرایه، با سه طبقه بند ماشین بردار پشتیبان، kنزدیکترین همسایه و mlpروش پیشنهادی آزمایش شد. نتایج بدست آمده مشخص شد کارایی این روش نسبت به روشهای پیشین بهتر می باشد.
پژوهشگران مریم امیری (استاد مشاور)، محسن رحمانی (استاد راهنما)، محسن تاج آبادی فراهانی (دانشجو)