تشخیص متن اسناد فارسی با استفاده از یادگیری خود نظارتی

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 74

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

AISOFT01_022

تاریخ نمایه سازی: 28 بهمن 1402

چکیده مقاله:

بدون شک، متن از درخشان ترین و تاثیرگذارترین ابداعات بشر است و به عنوان ابزاری حیاتی برای ارتباط و همکاری، نقش مهم تری از همیشه در جامعه ی مدرن بازی می کند. طیف وسیعی از اطلاعات متنی در تصاویر وجود دارند. از این رو می توان برای دسترسی به اطلاعات مورد نیاز، متن موجود در تصاویر را استخراج کرد. این فرآیند چالش های منحصر به فرد خود را دارد که این چالش ها، در خصوص زبان های با ساختار پیوسته و متصل به هم، از جمله زبان فارسی، پیچیده تر نیز هستند. چالش هایی از قبیل : نوع فونت، ساختار کلمات، کمبود داده‎های برچسب دار، کمبود داده های مصنوعی و نبود داده های واقعی. برای حل این چالش ها می توان از شبکه های عصبی عمیق کمک گرفت. در این مقاله با پیاده سازی روش های مبتنی بر شبکه های عصبی و یادگیری عمیق، سعی بر رفع چالش های موجود از جمله کمبود داده های برچسب دار و استفاده از داده های واقعی شده است. این روش که یادگیری خود نظارتی نام دارد، با استفاده از شبکه های عصبی پیچشی و شبکه های عصبی بازگشتی، به حل این مشکلات کمک می کند. نتایج به دست آمده روی داده های تهیه شده نشان می دهد که با دقت ۹۲.۹٪ به این مهم دست یافته ایم.

کلیدواژه ها:

تشخیص متن ، تشخیص متن فارسی ، شبکه های عصبی پیچشی ، شبکه های عصبی بازگشتی ، یادگیری خود نظارتی ، یادگیری عمیق.

نویسندگان

عاطفه بابایی

کارشناس ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران

مهران یزدی

استاد، گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران

علی جمشیدی

استاد، گروه مهندسی برق، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران

علیرضا دهقانی

استاد، دانشکده علوم کامپیوتر، دانشگاه کالج دابلین، دابلین، ایرلند