بهبود بازیابی اطلاعات بر اساس تشابه معنایی کلمات کلیدی با استفاده از رتبه دهی مبتنی بر گراف

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 717

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICTCK02_007

تاریخ نمایه سازی: 8 آبان 1395

چکیده مقاله:

کلمات کلیدی در اسناد متنی ، کلماتی از متن اسناد هستند که بیشترین بار مفهومی متن را به همراه داشته و نیز یکنسخه فشرده متن محسوب می شود در نتیجه نیاز به روش های استخراج خودکار کلمات کلیدی را به شدت افزایشداده اخیراً روش های رتبه بندی مبتنی بر گراف کاربرد موفقی در حوزه وب داشته یک مشکل عمده اکثر این روش هاتأکید بیش از حد بر پارامترهم جواری کلمات در ایجاد و وزندهی یال های گراف متنی و صرف نظر از شاخص های آماریشده است . در این پژوهش برانیم شباهت معنایی کلمات کلیدی را به صورت فرمت پیچیده تری از متغیر TF-IDF (روش وزندهی کلاسیک) به عنوان شاخص آماری بیان کنیم. با تعریف متغیر (W(ij که بیانگر ترتیب کاهنده از احتمال ارتباطشان با کوئری کاربر است و یک روش مشخص به عنوان رتبه بندی احتمال ؛ الگوریتم معروف BM25 است ، در این پژوهش اطلاعات آماری روش رتبه بندی احتمال ارتباط کلمات کلیدی، از جمله تعداد اسناد مشابه و اسناد کل مجموعه در وزندهی گراف استفاده شده است.هدف در این مقاله این است که شباهت معنایی m سند با سند مورد نظر (d(0 بررسی کنیم با رتبه بندی کلمات کلیدی مشترک میان اسناد ، اسنادی که دارای کلمات کلیدی با بالاترین اولویت اند شبیه ترین اسناد به (d(0 اند. مقایسه نتایج روش جدید با روش های قبلی افزایش دقت 93 % در اسناد استخراج شده مشابه (d(0 را نشان می دهد.

کلیدواژه ها:

نویسندگان

مهناز قادری فریز

دانشکده مهندسی کامپیوتر ، گروه نرم افزار ، دانشگاه آزاد اسلامی ، زاهدان

مجید وفایی جهان

استادیار ،گروه نرم افزار، دانشگاه آزاد اسلامی ، مشهد

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • conference _ World Wide Web, 2005. ناصر گرامی نیا "ارایه ...
  • کلمات کلیدی اسناد متنی با استفاده از رتبه دهی مبتنی ...
  • S.Brin, L.Page, " the Anatomy of a large-scale hypertext Web ...
  • R.Blane , C.Lioma, _ walk Term wieghting for information Retrieval" ...
  • E.Frank., Paynter , W. Gordon., Witten , H. Ian _ ...
  • extraction given more linguistic knowledge" EMNLP03 Proceedings of the Conference ...
  • A.Hulth, " Combining Machine Learning and for ...
  • Automatic Keyword Extraction Ph.D thesis Department of Computer and Systems ...
  • P _ Turney, "learning algoritms for keyphrase extraction ", informaion ...
  • overheads", in proceeding of the Twenty - First Annual Internati ...
  • R.Mihalcea, P.Traau, " TextRank" : Bringing order into texts _ ...
  • learning for web pages ranking algorithms", Applied Soft Computing, 13, ...
  • Pagerank", in proceeding of the Eleventh Int'I world wide web ...
  • on tology-based approach to learnable focused crawling" _ Information Sciences ...
  • Balazs Csanad Csaji a, b, Raphal M. Jungers c, d, ...
  • نمایش کامل مراجع