عنوان
|
ارائه ی یک جداساز کلمات با استفاده از عبارات باقاعده
|
نوع پژوهش
|
مقاله ارائهشده
|
کلیدواژهها
|
جداساز، پیکره، عبارات باقاعده، جایگزینی، پردازش زبان طبیعی
|
چکیده
|
این مقاله، به ارائه و تجزیه و تحلیل یک جداساز کلمات می پردازد. این جداساز با استفاده از عبارات باقاعده به جداسازی کلمات موجود در مجموعه ای از نوشته جات می پردازد. در واقع، بنیان این جداساز بر استفاده از قابلیت جایگزینی در عبارات باقاعده بنا نهاده شده است. جداساز پیشنهادی این مقاله، می تواند کلمات فارسی، انگلیسی، علائم و ... را تشخیص داده و به خوبی از عهده ی جداسازی آن ها برآید. در فرایند پردازش یک متن، برخورد با عباراتی که متفاوت از حالت معمول باشند، امری اجتناب ناپذیر است. در فرایند پیاده سازی این جداساز، سعی شد که حتی الامکان، کلمات به خوبی جداسازی شده و تعداد تکرار آنها مشخص شوند. خروجی که این جداساز به یک کاربر خواهد داد، شامل متن مورد پردازش، کلمات موجود در متن به صورت جدا شده و با تکرار (Words)، تعداد کلمات موجود در متن، کلمات موجود در متن بدون تکرار (Vocabulary)، تعداد کلمات بدون تکرار و در نهایت لیستی شامل هر لغت به همراه تعداد تکرار آن در متن مورد نظر خواهد بود. این لیست، یکبار بر روی لغات و بار دیگر بر روی تعداد تکرار مرتب خواهد بود.
|
پژوهشگران
|
میرعرفان غیبی (نفر چهارم)، علیرضا فیضی درخشی (نفر سوم)، محمد رضا فیضی درخشی (نفر دوم)، علی ریحانیان (نفر اول)
|