استخراج جملات موازی از دادگان وب

سال انتشار: 1391
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 163

فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_PAZAND-8-30_002

تاریخ نمایه سازی: 2 بهمن 1400

چکیده مقاله:

پیکره های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین زبانی است. لازمه استفاده از این پیکره ها هم ترازی آنها در سطح جمله است، اما جمع آوری و یا تولید این پیکره ها و همچنین هم ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع آوری پیکره های موازی از وب و هم ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگی­های هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه بند بیشترین پراکندگی جملات موازی استخراج می شود. یکی از ویژگی های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه های متفاوت معنایی است.  

نویسندگان

نسرین براتعلی پور

دانشجوی کارشناسی ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران

هشام فیلی

استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران

آزاده شاکری

استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران