ارائه یک روش جدید برای شناسایی عبارات کاندید در الگوریتم های استخراج عبارات کلیدی

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 586

فایل این مقاله در 17 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCT08_025

تاریخ نمایه سازی: 3 اردیبهشت 1399

چکیده مقاله:

عبارات کلیدی یک سند نمایش دهنده موضوع اصلی آن سند می باشد و از الگوریتم های استخراج عبارات کلیدی به عنوان یک ابزار ساده برای بازنمایی و تجزیه و تحلیل متون استفاده می شوند. به طور کلی استخراج عبارات کلیدی شامل دو مرحله شناسایی عبارات کاندید و وزن دهی عبارات می باشد. اکثر روش های استخراج عبارات کلیدی از روش های متداولی مانند شناسایی عبارات چند-گرم و یا شناسایی عبارات با استفاده از روش های گرامری استفاده می نمایند. شناسایی عبارات به روش چند-گرم معمولا در متون کوتاه کارایی مناسبی ندارند همچنین استفاده از دستورهای گرامری معمولا در شناسایی کلمات چند بخشی و یا عبارات حاوی کلمات توقف عملکرد مناسبی ندارند. در این مقاله یک روش داده محور برای شناسایی عبارات کلیدی در زبان فارسی پیشنهاد داده شده است. در جهت ارزیابی روش پیشنهادی به دلیل عدم وجود مجموعه دادهی مناسب جهت ارزیابی الگوریتم های استخراج عبارات کلیدی فارسی، دو مجموعه داده با استفاده از متون خبری و دیگری با استفاده از چکیده پایان نامه های فارسی در حوزه علوم انسانی ساخته شد. نتایج حاصل از به کارگیری روش فوق در 5 الگوریتم مطرح بدون ناظر بر اساس مجموعه داده اماده شده مورد ارزیابی قرارگرفت . نتایج ارزیابی برروی 5 عبارت کلیدی اول و 10 عبارات کلیدی اول پیش بینی شده نشان میدهد که به کارگیری روش پیشنهادی با توجه به عملکرد زمانی مشابه با روش های معمول شناسایی عبارات، افزایش معنا داری را در دقت الگوریتم های شناسایی عبارات کلیدی ایجاد میکند.

کلیدواژه ها:

نویسندگان

حمید حبیب زاده مشتقین

دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی

ایمان رئیسی وانانی

استادیار گروه مدیریت صنعتی ، دانشکده مدیریت و حسابداری، دانشگاه علامه طباطبائی

فائزه شیخ سفلی

دانش آموخته کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه علامه طباطبایی