عنوان
|
ارائه یک راهکار توزیع شده و موازی برای کاهش کلان داده ها
|
نوع پژوهش
|
پایان نامه های تقاضا محور و غیر تقاضا محور
|
کلیدواژهها
|
کلان داده، کاهش داده ها، کاهش ویژگی، کاهش نمونه، برنامه نویسی موازی
|
چکیده
|
گسترش روز افزون شبکه اینترنت و استفاده فراگیر مردم سراسر دنیا از شبکه های اجتماعی، سبب ایجاد داده هایی با حجم زیاد می شود. استخراج اطّلاعات مفید از داده ها و کسب دانش از الگوهای پنهان در آن ها، کاربردهای مختلفی مانند کاهش فضای لازم برای ذخیره سازی، افزایش سرعت در پردازش ها و کسب دقت بیشتر در نتایج را به همراه دارد. یکی از روش های استخراج اطلاعات، تکنیک های کاهش داده ها است. این تکنیک ها در مواجهه با داده های حجیم، بار محاسباتی زیادی را به سیستم تحمیل کنند. از این رو لازم است که تکنیک های موازی سازی برای افزایش سرعت الگوریتم ها به کار گرفته شود. در این رساله، راهکار هایی برای کاهش داده ها به صورت موازی پیشنهاد شده است که الگوریتم های مختلف کاهش داده ها را با هم ترکیب کرده و داده ها را هم از نظر تعداد نمونه و هم از نظر تعداد ویژگی کاهش می دهند. هدف از انجام این رساله، پیدا کردن راهکارهای عملی برای کاهش حجم داده های غیرضروری در عین افزایش یا حفظ دقت در الگوریتم های طبقه بندی است. ایده پیشنهادی این است که برای اینکه سرعت کاهش داده ها افزایش یابد، راهکار های پیشنهادی بر مبنای روش های برنامه نویسی موازی عمل کنند. بر این اساس، چند راهکار ارائه و پیاده سازی شد. در راهکار اول، عمل کاهش داده ها با یک فرآیند چند مرحله-ای و به کمک برنامه نویسی نگاشت-کاهش اجرا شد. در راهکار دوم، از ساختارهای برنامه نویسی موازی در MATLAB استفاده شد و الگوریتم ReliefF که یک الگوریتم کاهش ویژگی است به گونه ای تغییر داده شد که همزمان انتخاب نمونه و ویژگی را انجام دهد. در ادامه با استفاده از همین ایده، الگوریتمی برای حل مشکل مجموعه داده های نامتوازن ارائه شد. برای ارزیابی نتایج، راهکار های پیشنهادی روی چند مجموعه داده اجرا شده و نتایج آن ها از نظر سرعت زمان اجرا و سایر پارامترهای موجود، با نتایج روش های قبلی مقایسه شد. نتایج نشان دهنده کم شدن زمان اجرای الگوریتم های کاهش داده علیرغم بهبود و یا حفظ معیارهای ارزیابی طبقه بندی بود.
|
پژوهشگران
|
حسین غفاریان (استاد مشاور)، محسن رحمانی (استاد راهنما)
|