خوشه‌یابی تصویر زیرکلمات در متون قدیمی و حجیم چاپی با استفاده از معیار مقایسه تصویری

محورهای موضوعی : مهندسی برق و کامپیوتر

1 - دانشگاه تربیت مدرس
2 - دانشگاه تربیت مدرس

تاریخ دریافت : 1394/09/08 تاریخ پذیرش : 1394/09/09 تاریخ انتشار : 1393/01/01

کلید واژه: تحلیل اسناد تصویری بازشناسی متون حجیم خوشه‌یابی افزایشی جداسازی مجموعه داده,

چکیده مقاله :

حجم زیاد تصاویر متنی روز به روز مسئله دیجیتالی‌شدن متن تصاویر و همچنین مسئله جستجو در این منابع را اهمیت می‌بخشد. در بازشناسی متن‌های حجیم می‌توان از ویژگی‌هایی مانند محدودبودن تعداد و اندازه قلم، یکسان‌بودن صفحه‌آرایی در کل صفحه‌ها، محدودبودن مجموعه واژه‌ها و حوزه معنایی آنها و یکسان‌بودن سبک نگارشی در کل متن استفاده کرد. در این مقاله الگوریتمی ارائه شده که از یکسان‌بودن نوع و اندازه قلم برای خوشه‌یابی زیرکلمات یک کتاب قدیمی با کیفیت پایین چاپ استفاده شده است. این کتاب 233 صفحه دارد و کل زیرکلمات آن که در حدود 111000 زیرکلمه است جداسازی و برچسب‌زنی شده است. در این تحقیق از یک روش ساده افزایشی برای خوشه‌یابی زیرکلمات استفاده شده است. ابتدا برای هر زیرکلمه چهار ویژگی ساده استخراج می‌شود، در صورتی که تفاوت این ویژگی‌ها از ویژگی‌های نماینده یک خوشه کمتر از مقدار آستانه باشد، مقایسه تصویری بین آن دو انجام می‌شود. به علت زیادبودن تعداد زیرکلمات سعی شده تا از ساده‌ترین روش‌های ممکن استفاده شود تا سرعت اجرا افزایش یابد. نتایج آزمایش‌ها نشان می‌دهد می‌توان زیرکلمات را با دقتی در حدود 7/99 درصد خوشه‌یابی کرد. نتایج این خوشه‌یابی در مرحله بازشناسی زیرکلمات کمک بسیار زیادی خواهد کرد.

چکیده انگلیسی:

Due to the rapid growth of digital libraries, digitizing large documents has become an important topic. In a quite long book, similar characters, sub-words and words will occur many times. In this paper, we propose a sub-word image clustering method for the applications dealing with large uniform documents. We assumed that the whole document is printed in a single font and print quality is not good. To test our method, we created a dataset of all sub-words of a Farsi book. The book has 233 pages with more than 111000 sub-words manually labeled. We use an incremental clustering algorithm. Four simple features are extracted from each sub-word and compared with the corresponding features of each cluster center. If all features' differences lie within certain thresholds, the sub-word and the winner cluster center are finely compared using a template matching algorithm. In our experiments, we show that all sub-words of the book are recognized with more than 99.7% accuracy by assigning the label of each cluster center to all of its members.

منابع و مأخذ:

مقالات مرتبط

طبقه‌بندی خودکار تصاویر سرطان پستان با استفاده از یادگیری انتقال بر روی تصاویر ماموگرافی بهبودیافته
تاریخ چاپ : 1404/07/26
بررسی و ارزیابی عملکرد وب‌سرورهای Apache و Nginx بر بستر کانتینرهای داکر، پادمن و LXC
تاریخ چاپ : 1404/07/26
تولید الگوی آزمون خودکار پیشرفته با استفاده از الگوریتم PSO-FAN
تاریخ چاپ : 1404/07/26
تقویت فراتفکیک‌سازی تصاویر متنی توسط تضعیف عامدانه تابع زیان خوانش برای اعمال سخت‌گیری بیشتر بر شبکه فراتفکیک‌ساز
تاریخ چاپ : 1404/07/26
تخلیه امن مبتنی بر یادگیری مشارکتی در محیط رایانش مه با استفاده از شبکه نرم‌افزار محور
تاریخ چاپ : 1404/07/26
طراحی ساختار مناسب ترانسفورماتور الکترونیک قدرت بر مبنای استفاده از مبدل های چند پورته با قابلیت نصب ذخیره ساز
تاریخ چاپ : 1404/07/26

اشتراک گذاری

آدرس مقاله

خوشه‌یابی تصویر زیرکلمات در متون قدیمی و حجیم چاپی با استفاده از معیار مقایسه تصویری