استخراج جملات موازی از دادگان وب
محل انتشار: فصلنامه پازند، دوره: 8، شماره: 30
سال انتشار: 1391
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 163
فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_PAZAND-8-30_002
تاریخ نمایه سازی: 2 بهمن 1400
چکیده مقاله:
پیکره های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین زبانی است. لازمه استفاده از این پیکره ها هم ترازی آنها در سطح جمله است، اما جمع آوری و یا تولید این پیکره ها و همچنین هم ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع آوری پیکره های موازی از وب و هم ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگیهای هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه بند بیشترین پراکندگی جملات موازی استخراج می شود. یکی از ویژگی های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه های متفاوت معنایی است.
کلیدواژه ها:
نویسندگان
نسرین براتعلی پور
دانشجوی کارشناسی ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
هشام فیلی
استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
آزاده شاکری
استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران