تشخیص اعداد و متن و تصویر در سیستم فازی

ارسال توسط: مسعود کریمی تاریخ ارسال: ۱۸ مهر ۱۳۹۲ دسته بندی: کامپیوتر، اینترنت و فناوری اطلاعات»برنامه نویسی نظرات: 3 بازدید: 3965

چکیده:

در این مقاله به بررسی روشی در زمینه تشخیص عدد در تصویر، که زیر مجموعه ای از روش های OCR(Optical Character Recognition) شناخته می شود، می پردازیم. روش ارائه شده در این مقاله قادر به شناسایی فونت هایی مانند Verdana, Arial , Lucida Console است که دارای واریانس پایین و زوائد کمی می باشند. در این الگوریتم فرض بر این است که اعداد با رنگ مشابه در یک خط باشند. تفاوت روش پیشنهادی با روش های دیگر در تکنیک باینری کردن تصویر است، روش های قبلی مبتنی بر شکل هیستوگرام بود، بطوریکه ابتدا هیستوگرام تصویر را به دست می آورند و سپس نقاط آستانه را در آنها پیدا می کردند . البته این روش ها به خوبی کار نمی کنند، مخصوصا وقتی رنگ نوشته و زمینه بسیار به هم نزدیک باشد ، اما الگوریتم پیشنهادی باعث شده تا مشکل تشابه رنگ به شکل کارآمدی حل شود
از منصور باپیری.

تشخیص متن و اعداد و شناسایی کاراکتر با استفاده از پردازش تصویر فازی (Fuzzy Image )

 

 

 

 

 

تحقیقات حاضر، الگوریتم و نرم افزاری برای شناسایی و تشخیص کاراکتر در یک تصویر ارائه می دهد. سه نوع فونت نوشتاری به نامهای وردانا (Verdana)، آریال (Arial)، لوسیدا کنسل (Lucida Console) تحت بررسی هستند. اندازه ی فونت ها در محدوده ی بین 17 تا 29 خواهند بود. این نوع به دلیل اختلاف پایین کاراکترها و به دلیل حداقل افزونگی برای یک کاراکتر انتخاب شده اند. همچنین آنها هیچ نقطه انفضال یا شکستگی، در کاراکتر واحد و یا هیچ ترکیبی در گروهی از کاراکترها که در فونت New Roman قابل توجه بود، ندارند.

الگوریتم پیشنهادی نشان میدهد که حداقل سه کارکتر به همان رنگ روی یک خط مجزا وجود دارند، کاراکتر در بهترین وضعیت خود که به معنی وجود هیچ نقطه شکسته در یک کاراکتر واحد و هیچ موردی از ترکیب بین گروهی از کاراکتر هاست، قرار دارند و در آخر، کاراکتر واحد تنها دارای یک رنگ است.

الگوریتم اساسی به معنی استفاده کردن از 8 جزء متصل برای Binaries کردن تصویر و پیدا کردن و تشخیص کاراکترها در تصویر است. توجه داشته باشید که در مقایسه این روش با روشهای دیگر، تفاوت اصلی در Binarizing است. کار قبلی عمدتاً به شکل هیستوگرام بستگی داشت. آنها برای پیدا کردن نقاط آستانه، ابتدا هیستوگرام را محاسبه کرد، سپس یکنواخت می کنند. این روشها به هنگامی که متن و پس زمینه ها خیلی مشابه هستند، بدرستی عمل نمی کنند و همچنین ممکن است یک ناحیه از متن منفی یا معکوس (Negative) ایجاد کند. متن معکوس بعنوان یک ناحیه ی گرافیکی ممکن است بر کارآیی تصویر، تاثیر گذار باشد، اما امکان تعیین آن وجود دارد. روش ارائه شده توسط هر رنگ به تنهایی انجام می گیرد. این روش در ترکیب یا ادغام بین متن و پس زمینه بعید است که اتفاق بیفتد. همچنین هیچ متن معکوسی در کل تصویر وجودنخواهد داشت. زیرا متن معکوسی که یک رنگ باشد، متن نرمال برای دیگری خواهد بود. مباحث نشان داده شده و مورد بحث قرار گرفته شده، کارایی الگوریتم پیشنهادی و چگونگی تفاوت کارایی آن در مقایسه با الگوریتم های دیگر را به نمایش می گذارد.

 

 

کلمات کلیدی: تشخیص متن، تشخیص کاراکتر، پردازش تصویر فازی، تشخیص کاراکتر نوری


 

مقدمه

اختراع دستگاهی با عملکردهای بشر، مانند یک نظریه ی رویایی است. با این حال، بیش از پنج دهه گذشته، نظریه ایجاد این دستگاه از یک رؤیا به یک واقعیت رو به افزایش است. کشف متن و به رسمیت شناختن کاراکتر، به عنوان تشخیص کاراکتر نوری (Optical Character Recognition[1]) یا همان OCR شناخته شده است، تبدیل به یکی از موفق ترین برنامه های کاربردی در فناوری و در زمینه ی به رسمیت شناختن الگو و هوش مصنوعی است. تعداد بیشماری از سیستم های تجاری برای OCR در گونه های مختلفی از برنامه های کاربردی[2] وجود دارند.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1-1 معرفی پردازش تصویر

تصویر به معنی یک صف آرایی، یا یک ماتریکس از پیکسل های (Pixels) مربعی (عناصر تصویر) که در ستونها و در ردیف هایی مرتب شده اند، می باشد. در یک عکس Gray scale 8 بیتی (8-Bit)،هر عنصر تصویری شدت خاص به خود را دارد که این شدت در محدوده هی از 5 تا 255 متغییر است. تصویر Gray scale چیزی است که مردم آن را به طور معمول سیاه و سفید می نامند، اما این عنوان به تصویری که شامل تعداد زیادی از سایه های خاکستری است، تاکید دارد. یک تصویر Gray scale نرمال، 8 بیت عمق رنگ دارد که برابر است با Gray scale 256 یک تصویر با رنگ واقعی (True Color) دارای عمق رنگ 24 بیتی برابر با 8×8×8 بیت = 256×256×256 رنگ = عمق رنگ 16 میلیون رنگ، می باشد.

برخی از تصاویر سیاه و سفید دارای Gray scaleهای بیشتری هستند، بعنوان مثال : 16 بیت = 65536 Gray scale. دو گروه عمده از تصاویر وجود دارند: گرافیک های Vector (یا هنر خط) و Bitmaps (بر پایه پیکسل یا تصاویر).

 

1-2 مروری بر ادبیات

علاقه رو به رشدی در توسعه ی روشهای تشخیص، بومی سازی و متن تقسیم بندی شده (Segmenting) از تصاویر و ویدئو وجود دارد. در اینجا ما ادبیات را بر حسب تشخیص، بومی سازی و استخراج از متون داخل تصاویر و ویدئو ها ارائه می دهیم.

1. Q.Yaun,C.L.Tan، روشی را ارائه داده اند که در آن می توان با استفاده از اطلاعات جانبی، بلوکهای متنی را از تصاویر Gray scale استخراج کرد.

2. M.Pitikainen,O.Okun، یک روش ساده براساس آشکارسازی های جانبی، مانند اپراتور Sobel، جهت فیلترسازی، فایلی از تصویر و استخراج متن، پیشنهاد دادند.

 3. S.J.Retantonis,B.Gatas,V.Maragos، وب سایت الگوریتم پردازش تصویر برای شناسایی منطقه ارائه داده اند. 4

. Wei-Yaun Chen,Shu-Yaun Chen، یک صفحه الگوریتم تقسیم بندی شده، توسعه داده اند. برای قرار دادن بلوک های متن روی صفحه جلد مجله ای که در آن می توان، متون را روی گرافیک ها و یا تصاویر قرار داد.

5. C.Strouthopoulos,N.Papamarkos، روش جدید برای شناسایی خودکار و استخراج متن از رنگ میکس شد، پیشنهاد داده اند. روش پیشنهادی براساس ترکیبی از تکنیک کاهش رنگ طبیعی (Adaptive Color Reduction) یا روش ACR، با یک روش طرح تجزیه و تحلیل (Page Layout Analysis) یا روش PLA، می باشد.

6.Chandra Kanth Chereddi,K.Atul Negi,Nikhil Shanker، یک سیستم جهت استخراج و تشخیص متنTelugu ارائه دادند. ماهیت Telugu برای متن Segmenting با استفاده از تبدیل Hough (Hough Transform) مورد بهره برداری قرار گرفته بود.

 7. Shoichiro Hara، طرحی جدید از کاراکترهای تفکیک پذیر به کاراکترهای جداگانه و متمایز برای پردازش هر چه بیشتر OCR ارائه کرد.

Text Box: نمودار 1- جریان کاهش یافتن رنگ ها
Text Box: نمودار 2- Binirize ی از زیر مجموعه ی تصاویر ( زیر تصاویر ها )

 


8. Christian Wolf, Jean-Michel Jolian, Francoise Chassing، الگوریتمی را جهت ترجمه کردن متن مصنوعی در تصاویر و ویدئو، با استفاده از اندازه گیری شیبهای گردآوری شده و پردازش ارسال مورفولوژیکی به حفاظت از متن، مطرح کرده اند.

 9. Oleg G.Okun، یک روش جدید برای استخراج متن از تصاویر باینری با یک پس زمینه ی ترکیب شده، مطرح کرد. او اساساً تبدیل Top-Hat (Top-Hat Transform)، از یک فیلتر مورفولوژیکی بهره برد.

10. P.Clark,M.Mirmedi، روشی مبتنی بر خواص آماری اطراف یا جوانب تصویر محلی، برای واقع شدن متن در تصاویر واقعی (Real-Scene Image)  مطرح کردند.

 11. C.Datong, B.Hervé,Jean Philippe، یک الگوریتم سریع و قوی برای شناسایی متن در فریم های تصویری یا ویدئویی با پس زمینه پیچیده و اثرات و یا افکت های فشرده سازی، ارائه دادند.

12. Qixiaug Ye, Wen Gao, Weiqinag Wang, Wei Zang، الگوریتمی برای محافظت متن در فریم های تصویری و ویدئویی ارائه کردند. این الگوریتم شامل دو مرحله است: تشخیص اولیه، تحقیق یا رسیدگی اولیه.

 13. Matti Peitikainen, Maja Koiuvsaari, Jakko Sauvola، یک رویکرد جدید ارائه دادند که توسط آن اصل و ریشه ی فایل طرح تصویر را اتومات (Automate) می کنند. ویژگی ای که براساس اطلاعات شیءگرا (Object-Oriented)، از تجزیه تحلیل ویژگی سطح پایین اما سریع، طبقه بندی شده و پیش بینی کدگذاری (Coding)  استفاده می کنند.

 14. P.Clark, M.Mirmeh، یک روش برای بازیابی متقابل پاراگرافها از متن ارائه داده اند.

15. Hanchaun Peng, Fuhui Long, Wan-Chi Siu, Zheru Chi, David Dagan Feng، یک الگوریتم جدید تطبیق داده شده براساس مؤلفه های بلوک لیست (Block List) و بلوک درختی (Block Tree) ارائه دادند.

 

 



 

2. یک روش پیشنهادی

الگوریتم توسعه یافته به سه گروه تقسیم بندی می شوند:

1) الگوریتم تشخیصی (Detection Algorithm)

2) الگوریتم شناسایی (Recognition Algorithm)

3) سیستم فازی (که بخشی از گروه شناسایی هستند.)

 

2-1. الگوریتم تشخیصی

2-1-1. کاهش رنگ های تصویر

ما با تصاویری که می توانند همچون 8 بیتی، طبقه بندی شده باشند مواجه هستیم و این روبه رو شدن ما با تک رنگ، سخت تر  زمانبرتر می باشد. همچنین یک نقطه شروع از عهده ی تبدیل تصویر به تصویر باینری همچون نمونه کارهایی که سابقاً انجام گرفته بود، برنمی آید. زیرا، اگر رنگ متن تقریبا همچون نمونه پس زمینه آن باشد، آن نقطه از دست داده می شود، همچنین ممکن است سبب ایجاد یک نقطه شکسته در کاراکتر واحد یا گروهی از کاراکترها شود که آنها را به عنوان نویز در نظر گرفته اند. بنابراین، این موضوع سبب کاهش یافتن تعداد زیادی از رنگ به حداقل میزان آنها می شود. این ویژگی اساسی در حالیکه رنگهایی را که نمی توانند در تصویر ظاهر شوند را از بین می برد (پاک می کند)، مانند رنگهایی که در کمتر از 60 پیکسل ظاهر می شوند. در حال حاضر به دلیل استفاده از این روش، اگر رنگ متن تقریباً با رنگ پس زمینه ترکیب شود، متن بعنوان بخشی از پس زمینه در نظر گرفته می شود. این حالت از ویژگی های متن تاثیر نخواهد پذیرفت. نمودار جریان کاهش یافتن رنگ ها در نمودار شماره ی 1 قابل مشاهده است.

 

 

 

 

 

 


 

Text Box: نمودار 5- مراحل 3 و 4و5و7 از الگوریتم تشخیص

 


2-1-2. تبدیل تصویر به تصویر فرعی (Sub-Image) و Binaries کردن آنها

تعدادی از تصاویر که ارتفاع و عرض مشابهی در تصویر اصلی هر کدام از آنها دارند ایجاد خواهد شد. ما یکی از رنگهایی که روشن اند را ON و مابقی را که خاموش اند OFF در نظر می گیریم، که به ما در هر زمانی، یک تصویر باینری ارائه می دهد. بنابراین، یک رنگ را انتخاب می کند، آن زمان که مساله ی ادغام کردن متن را با پس زمینه حل می کند. نمودار شماره 2 بیانگر این جریان است.

 

 

2-1-3. پیدا کردن اجزای متصل

دو روش برای اجزای متصل شده وجود دارد:

الف) روش 4 جزء به هم پیوسته (4-Connected)، نمودار شماره 3، که در آن پیکسل ها در صورتیکه لبه هایشان مماس باشند، به هم متصل اند. این بدین معنی است که یک جفت از پیکسل های مجاور، تنها در صورتیکه هر دوی آنها ON باشند، بخشی از همان جسم هستند و در امتدادهای افقی یا عمودی هم باید به هم متصل باشند.

ب) روش 8 جزء به هم پیوسته (8-Connected)، نمودار شماره 4، که در آن پیکسل ها در صورتیکه لبه ها و یا گوشه هایشان مماس هم باشند، با هم مرتبطند. این در صورتی است که پیکسلهای مجاور هم ON باشند، که در اینصورت آنها بخشی از همان جسم هستند، بدون در نظر گرفتن اینکه آیا آنها در امتدادهای افقی، عمودی و یا مورب به هم متصل باشند.

 

2-1-4. حذف نویز (Noise)

هر جزء در تصویری که دارای مساحت کمتر از 20 پیکسل است، بعنوان نویز در نظر گرفته می شود، این فرض تصدیق شده است زیرا، این الگوریتم برای تصرف کردن متنی که اندازه ی فونت آن بین 17 تا 29 است، طراحی شده است.

 

 

 

 

2-1-5. محاسبه ویژگی های اساسی اجزاء متصل

برای هر جزء متصل شده، الگوریتم Run Length اعمال می شود. که به این معنی است که برای هر ردیف یا ستون ها باید به کرات تغییرات، آنها را از ON به OFF و برعکس از OFF بهON محاسبه کنیم. بعنوان مثال برای 0011101010101، 9 بار این تغییر صورت می گیرد و برای 00000001111، تنها یک بار تغییر صورت می گیرد. سپس انحراف استاندارد و میانگین آنها برای طرح ریزی افقی و دوباره برای طرح ریزی عمودی محاسبه می گردد. طول و عرض و نسبت طول جزء متصل شده باید محاسبه گردد.

 

2-1-6. طبقه بندی جزء متصل

براساس محاسباتی که قبلا انجام شده اند ما قادریم تصمیم بگیریم که جزء متصل شده یک کاراکتر محسوب می شود یا نه. مقادیر حد آستانه براساس محاسبات مشابه انجام شده، برای سه سبک مختلف از فونت ها انجام می شود، که عبارتند از: لوسیدا کنسل (Lucida Console)، وردانا (Verdana)، آریال (Arial)، با اندازه ما بین 17 تا 29. حروف را از (a – z) و از (A - Z) برای هر نوع فونت تعبیر کنید و RLC را برای هر یک از آنها محاسبه کنید.این محاسبه محدوده ای (Range) را برای هر نوع فونت به ما خواهد داد. حداکثر وحداقل از این محدوده به عنوان نقاط آستانه در نظر گرفته شده است.

 

2-1-7. ترک تصویر تنها با استفاده ار متن

اگر ویژگی های متصل با اطلاعات آستانه به توافق برسند، آنها در تصویر بعنوان متن باقی می مانند، به عبارتی حذف خواهند شد. روش فوق در نمودار خلاصه شده ی شماره 5 ارائه شده است.

 

2-2. الگوریتم شناسایی

در این بخش کاراکتر بعنوان حروف و تصویری که به متن تبدیل خواهد شد، شناسایی می شود. سپس از آن تصویر پاک شدهبه یک تصویر باینری حاوی یک متن، تبدیل می شود، سپس این تصویر باینری بدست آمده ذخیره شده و حافظه آن پاک می گردد. این مرحله برای افزایش سرعت سیستم بسیار حائز اهمییت است. پس از آن مراحل زیر باید انجام گیرند.

 

 

Text Box: نمودار 6- جریان حذف شدن حواشی (کناره ها)

 

 

 

 

 

 

Text Box: نمودار 7 – نمونه ای از حواشی حذف شده ( پاک شده ) 


2-2-1. پاک کردن مرزها[3] (حواشی)

مرزها بایستی برداشته شوند، این حالت اندازه ی تصویر را کاهش خواهد داد. فقط بخش مستطیل شکلی از تصویر که شامل متن است باقی خواهد ماند. بخش های دیگر پاک خواهند شد. این مرحله در نمودار شماره 6 و7 نشان داده شده است. همان طور که در نمودار شماره 7 می بینید، منطقه خاکستری حذف می شود، این باعث می شود که اندازه ی تصویر کوچکتر و به تبع آن برنامه سریع تر شود.

 

2-2-2. تقسیم بندی متن به ردیف ها

پس از حرکت از مرزها، منطقه در حال حاضر به ردیف هایی تقسیم بندی شده است. باز هم قانون اصلی این است: حداقل سه کاراکتر با همان رنگ وجود دارند. هر ردیف در یک صف ذخیره می شود و در مرحله بعدی مورد استفادخه قرار می گیرد. (نمودار شماره 8 و 9).

 

2-2-3. تقسیم ردیف ها (Lines)  به کلمات

قبل از آن که یک ردیف به کلماتی تقسیم شود، منطقه خالی قبو و بعد از متن حذف خواهد شد. هیچ محدودیتی بر روی کلمه بعنوان بسیاری از الگوریتم های دیگر اعمال نمی شود. این کلمه ممکن است یک کاراکتر واحد یا بیشتر از آن باشد. این اندازه ممکن است در کلمه مشابه آن متفاوت باشد و لازم نیست که کلمه همان معنی را به ما بدهد.نمودارهای شملاره 10 و 11 چگونگی تقسیم ردیف ها را به کلمات نشان می دهند.


 

 

2-2-4. تقسیم کلمه به حروف

سرانجام هر کلمه به کاراکترها تقسیم می شود و در یک صف ذخیره می شوند. باز هم فرض اصلی بر این است که هیچ ادغامی بین کاراکترها و هیچ نقطه شکستی در کاراکتر واحد وجود نداشته باشد. این مرحله در نمودارهای 12 و 13 نشان داده شده است.

سپس ما برای هر یک از این کاراکترها عدد اویلر (Euler) را که برابر با تعداد اجزاء متصل شده در عکس مبنای حفره هاست، را محاسبه می کنیم. این کاراکترها به سه گروه تقسیم بندی می شوند:

1- عدد اویلری که بربر با 1 است که شامل:

s-S, f-F, G, h-H, j-J, k-K, l-L, z-Z, x-X, c-C, v-V, n-N, m-M, w-W, E, r, t-T, y-Y, u-U, i-I هستند.

2- عدد اویلری که برابر با صفر باشد که شامل:

q, Q, R, o, O, p, P, a, A, d, D, g, b هستند.

3- عدد اویلری که برابر -1 است که حرف B را شامل می شود.

 


 



همانطور که مشاهده می کنید گروه سوم تنها شامل حرف B می باشد و این باعث می شود که دقت در شناسایی و تشخیص بالا برود، زیرا هیچ حرفی که مانند آن به نظر می رسد، موجود نیست. اینجا سیستمی برای متصل کردن رفتار کاراکتر در تصویر موجود است. به سوالات زیر جواب دهید: موقعیت مرکز تصویر در کجا واقع است؟ کدام گوشه از تصویر ON است؟ و غیره. اما بواسطه ی ترکیب گروه 1 با گروه 2، آنها را برای شناسایی کاراکتر به سیستم فازی[4] ارسال می کنند.

 

 

2-2-5. اطلاعات را از تصویر کاراکتر به سیستم فازی، جهت تشخیص کاراکتر ارسال می کند.

برای گروه اول، همچنان که می بینیم، کاراکترهای زیادی که ممکن است شکل مشابه داشته باشد، وجود دارند، بنابراین ما در این بخش به منظور بالا بردن کیفیت، شماری از اطلاعات را افزایش می دهیم. این اطلاعات (همان اطلاعاتی که جهت توسعه سیستم فازی مورد استفاده اند) شامل موارد زیر است:

1- پیکسل های 4 گوشه ای از تصویر (در هر صورت باید ON و OFF آن را بیابید.)

2- مرکز تصویر (در هر صورت باید ON و OFF آن را بیابید.)

3- مرکز هر کدام از گوشه های تصویر (در هر صورت باید ON و OFF آن را بیابید.)

برای اطلاعات زیر توالی زیر را در نظر می گیریم: قسمت بالایی در سمت چپ (Upper-left)، قسمت بالا میانه (Upper-middle)، قسمت بالایی در سمت راست (Upper-right)، میانه سمت راست (Middle-right)، قسمت پایینی در سمت راست (Lower-left)، قسمت پایینی میانه (Lower-middle)، قسمت پایینی در سمت چپ (Lower-left) و سرانجام میانه ی میانه (Middle-middle). این اطلاعات، اطلاعاتی پیچیده اند نه اطلاعات فازی.

4- نسبت طول آن (پهنا یا عمق)

5- شماری از خطوط که توسط خطی که از طریق مرکز بصورت عمودی عبور می کند، قطع خواهد شد.

6- شماری از خطوط که توسط خطی که به صورت افقی در در حالت 25 در صدی عبور می کند، قطع خواهد شد.

7- شماری از خطوط که توسط خطی که در حالت 58 در صدی و به صورت افقی عبور می کند، قطع خواهد شد.

نمودار شماره 15 اطلاعاتی که درباره ی گروه اول هستند را نشان می دهد، و برای گروه دوم این اطلاعات شامل موارد زیر هستند:

1- پیکسل گوشه هایی از تصویر (در هر صورت باید ON و OFF آن را پیدا کنید.)، این توالی به این صورت است: بالا سمت چپ (Upper-left)، بالا سمت راست (Upper-right)، پایین سمت راست (Lower-right)، پایین سمت چپ (Lower-left).

2- موقعیت حفره در جهت x

3- موقعیت حفره در جهت y

4- شماری از خطوطی که توسط یک خط که از طریق مرکز، به صورت عمودی رد می شود، قطع خواهند شد.

نمودار شماره 16 این اطلاعات را برای گروه دوم به نمایش می گذارد.

اطلاعات در سیستم فازی، پردازش می شوند. بنابراین، کاراکتر، تشخیص داده خواهد شد. برای مثال، در نمودار 16، اطلاعات برای فازی کردن سیستم [000 135 306] هستند، آنجا که 4 عدد اول در پیکسل گوشه ای جزء x (x-component) مرکز حفره ای، جزء y (y-component) در مرکز حفره و تعدادی از خطوطی قطع شده، توسط خط عمودی که از میانه ی مرکز می گذرد، واقع شده اند. برای اولین سیستم فازی ما می توانیم ببینیم که 10 داده ی اول، یک مورد خاص از یک سیستم فازی است و داده های پیچیده یک نمونه ی منحصر به فرد از اطلاعات فازی هستند، تا اینکه ما بتوانیم داده های پیچیده را مانند داده های فازی اصلاح کنیم.






 

 

2-2-6. نسخه قابل چاپ کاراکتر

پس از اینکه کاراکترها شناسایی شدند، هر یک از کاراکترها در یک ورق که گام نهایی در رویکرد ما محسوب می شود، چاپ می شوند.پس از آن، حروف می توانند به عنوان فایل حاوی کلمه (Word document)  یا ورقی که کلمه روی آن چاپ می کنیم، ذخیره می شوند.

 

3. بحث در مورد نتایج

3-1. استفاده از روش پیشنهادی

در مقایسه این روش با روشهای دیگر، توجه ما معطوف به اختلاف اصلی است که در روش Binarizing وجود دارد. سابقاً این عمل به طور عمده، به شکل هیستوگرام بستگی داشت. آنها هیستوگرام را محاسبه می کردند، و سپس برای پیدا کردن نقاط آستانه، آن را یکنواخت می کردند. این روش ها زمانیکه رنگ متن و پس زمینه بسیار مشابه همدیگر هستند، عملی نیستند. خواه منطقه ای از متن معکوس ایجاد می کنیم. متن معکوس ممکن است به عنوان منطقه ای گرافیکی که ممکن است در کارآیی سیستم تاثیر بگذارد، اصلاح پذیر است.

روش ارائه شده در هر رنگ به تنهایی صورت می گیرد و این اصلاع زمانی صورت می گیرد که آن رنگ ON و مابقی OFF باشند. این کار، ادغامی بین متن زمینه معکوس بوجود می آورد. همچنین هیچ متن معکوسی در تمام تصویر وجود نداردبه خاطر اینکه متن معکوس دارای رنگ، متن نرمال و طبیعی برای دیگری خواهد بود. همچنین ما می توانیم بفهمیم که بیشتر کارهایی که سابقاً انجام گرفته اند، تحت روش تقسیم بندی (Segmentation)، صورت گرفته اند، که به این معنی یک تصویر بزرگ با زمینه سفید و طرح شناخته شده می باشد.

این آثار معمولا تنها برای 1 تا 3  طرح کاربرد دارد. اگر طرح های بیشتری مورد نیاز باشد، از شبکه Neural بهره خواهیم برد. اما این روشها زمانی که تصویر غیر قابل پیش بینی است، با شکست مواجه می شوند. روش پیشنهادی در این مقاله، کارآمد و با دقت کافی صورت می گیرد. همانطور که در نمونه های زیر نشان داده شده است.

نتایج بدست آمده نشانگر وجود سه نوع فونت نوشتاری: Verdana, Arial, Lucida Consoleبا اندازه نقاط بین 18 تا 19 می باشند. این فونت ها به دلیل این که کاراکترها دارای واریانس کم و افزونگی کمتر (Redundancy) در کاراکتر واحد هستند، انتخاب شده اند. همچنین آنها هیچ نقاط شکست در کاراکتر واحد یا ادغامی در گروهی از کاراکترها، مانند نوع قابل توجه Times New Roman ندارند.

در نتیجه، از الگوریتم ارائه شده در یک فایل مجزا، نمونه ای چاپ خواهند شد، به طوریکه هر کسی بتواند آن را بعداً ویرایش کند.

بخش تشخیص به سیستم فازی بسیار اساسی بستگی دارد، که باعث می شود سیستم سریع تر و انعطاف پذیرتر باشد. در نمودار 17 ما می توانیم عکسی از یک زن که پس از آن به متن اضافه شده است را ببینیم. متن شامل دو واژه meja با رنگ سبز (Green) و meja با رنگ سیلان (Ceylon) است. فاصله ای بین حرف e و حرف j قرار داده شده است تا مطمئن شویم که هیچ ادغامی بین آنها صورت نمی گیرد.

همانطور که می توانید در نمودار شماره 17 مشاهده کنید که رنگهای تصویر در منطقه آبی رنگ واقع شده اند. در تمام کارهایی که سابقاً انجام انجام می گرفت این تصویر نمی توانست بدلیل تشابه در رنگ های بین متن و زمینه، اصلاح شود. همچنین شما می توانید کلمه meja به رنگ Ceylon را به سختی بخوانید.، و همه کارهای تحمیل شده قبلی محدود به این موقعیت هستند.

اولین گام در رویکرد ما، کاهش تعدادی از رنگ ها در تصویر می باشد که با نادیده گرفتن رنگ هایی که عدد پیکسلی آنها زیر 60 هستند و با کاهش سطح رنگ از 256 به 150 صورت می پذیرد. نتیجه در نمودار شماره 17، نشان داده شده است. هر رنگ به عنوان یک تصویر باینری اصلاح پذیر است، با در نظر گرفتن اینکه رنگ، ON باشد و مابقی OFF باشند.

نتایج در نمودار 17 (j),(i),(h),(g),(f),(e),(c) نشان داده شده اند. در هر تصویر باینری اجراء متصل به عنوان کاراکتر و یا نویز (Noise)، تشخیص داده شده و سپس تقسیم بندی شده و سرانجام طبقه بندی می شود.

این محدودیت ها عبارتند از:

 

جدول 1 مقایسه دقیق

الگوریتم کوانگ

الگوریتم متی

نوشتن نرم

soft writing

ABBYY Finereader 7

روش پیشنهادی

#

 از کاراکتر ها

تصویر

61.42857

37.71428571

18.57142856

47.14285714

100

70

1

23.80952

100

0

9.523809524

100

21

2

28.94737

100

0

100

100

38

3

88.23529

0

29.41176471

29.41176471

82.35294118

17

4

100

0

100

100

100

5

5

100

0

97.61016949

57.62711864

100

59

6

100

10

0

0

100

9

7

100

9.090909091

81.81818182

100

100

11

8

50

0

0

50

50

12

9

50

0

50

87.5

100

8

10


 


- حداقل سه مورد در یک خط واحد وجود دارند که دارای رنگ مشابهی هستند.

- خواص ماده با ارقام آستانه ترکیب می شوند.

- مساحت ماده، زیر 20 پیکسل نیست.

- ارتفاع و عرض به ترتیب، بالاتر از 45 و 40 پیکسل نیستند.

شما می توانید ببینید که با استفاده از این الگوریتم، مسأله متن معکوس حل شده است. یا  شما می توانید متن معکوس را که بعنوان یک متن نرمال و طبیعی در نمودار (e) و (h) اصلاح شده، ببینید. نتیجه نهایی در نمودار (k) نشان داده شده است، جاییکه تمام پس زمینه، تنها با ترک کردن متن، پاک شده است. پس تصویر نهایی به خطوط (ردیف ها) تقسیم می شوند. پس هر یک از این کاراکترها، برای پیدا کردن برخی از ارزشهای که حاوی اطلاعاتی برای سیستم فازی هستند، پردازش خواهند شد. این کاراکتر، همان کاراکتر شناسایی شده است و در نتیجه این کاراکتر چاپ خواهد شد.

 

3-2- مقایسه بین روش های مختلف

در اینجا ما قصد داریم بین الگوریتم پیشنهاد شده و برخی از الگوریتم های دیر مانند: FineReader حرفه ای و SafeWriting و الگوریتم متی (Mattes’ Algorithm) و الگوریتم کوانگ (Kowng’s Algorithm) انجام دهیم.(نمودار شماره 17).

الگوریتم متی (جدول شماره 2) به تعداد لبه ها در بلوک واحد و حذف لبه های ضعیف از تصویر بستگی دارد، الگوریتم کوانگ به شبکه های SVM و Neural، بستگی دارد. این برنامه به نامهای ABBYY Finereader 7 و Safewriting نامگذاری شده بودند.

این روش پیشنهادی با سایر روشهای دیگر مورد مقایسه قرار گرفت، مقایسه دقیق (Accuracy) در جدول شماره 1 نشان داد شده است و جدول شماره 2 مقایسه نادرستی (False) را ه نمایش می گذارد. Accuracy به روش زیر محاسبه می شود:

 

 

تصاویر B.1 تا B.10، در ضمیمه ب (B) نشان داده شده اند. ستون دوم در جدول 1 نشانگر تعدادی از کاراکترها در هر تصویر است. همانطور که مشاهده می کنید، روش پیشنهادی Accuracy از سایر روشهای مطرح شده، بهتر است. در تصویر شماره B.9 مشاهده می کنید که دقت کم است و این به خاطر این است که حروفی که در این تصویر وجود دارند، به سبک فونتی که ما ارائه کردیم و سبب بالا رفتن خطا می شود، تعلق ندارند.

جدول 2- مقایسه در موضع نادرست

الگوریتم گراف

الگوریتم متی

نوشتن نرم

soft writing

ABBYY Finereader 7

روش های

پیشنهادی

تصویر

0

10

0

0

0

1

9

0

0

3

0

2

1

0

0

0

0

3

2

>50

0

0

0

4

0

>50

3

2

0

5

3

>50

2

3

0

6

2

>50

0

0

0

7

0

>50

0

0

0

8

1

>50

0

0

0

9

1

>50

0

1

0

10


 

مقایسه دوّم، چگونگی تشخیص تعدادی از موضوع های نادرست است. این مقایسه در جدول شماره 2 نمایش داده شده است.

همانطور که مشاهده می کنید، هیچ موقع نادرستی در الگوریتم ما در مقایسه با بقیه وجود ندارد. از آنجا که از این نتایج برمی آید، ما می توانیم ببینیم که تمام الگوریتم های دارای دقت بالا (High Accuracy) هستند،در صورتی که مقادیر دارای یک رنگ باشند و پس زمینه دارای یک متن تک رنگ باشد، اما زمانیکه این محدوده در نظر گرفته نشود، دقت پایین می آید. همچنین، در در صورتیکه تصویر حاوی مقدار زیادی از رنگ ها، بیش از 10 رنگ، و رنگ متن تقریباً با رنگ پس زمینه مطابق باشند، نتایج الگوریتم های دیگر ضعیف می شوندو این در صورتی است که روش پیشنهادی بروی دقت تأکید دارد.

 

 

 

4- نتیجه گیری

در این کار، روش جزء متصل شده، برای ایجاد الگوریتم های تشخیص و به رسمیت شناختن الگوریتم مورد استفاده قرار گرفت.

 

 

 

 


 

 

نمودار 17 – مثال (a ) تصویر اصلی ، نتیجه حاصله بعد از کاهش رنگ های (c) ، (d) ، (e) ، (f) ، (g) ، (h) ، (i) ، (j) اقتباس از اجزای متصل (k) نتیجه نهایی

 

 

جهت توسعه الگوریتم در 3 نوع فونت و اندازه های در محدوده بین 17 الی 29، بکار گرفته شده اند. از این پس 3 نوع فونت حداقل در سه کاراکتر با رنگ مشابه بروی یک خط می توان بهره برد، کاراکتر در بهترین وضعیت خود به این معنی است که، هیچ نقطه شکست در یک کاراکتر واحد و نه هیچ ادغامی بین گروهی از کاراکترها وجود ندارد و در آخر، یک کاراکتر واحد تنها دارای یک رنگ است. الگوریتم اولیه از 8 جزء متصل برای Binaries کردن تصویر و همچنین برای پیدا کردن کاراکترها و تشخیص آنها استفاده کرد. نتایج مورد بحث، چگونگی بهره وری از الگوریتم و چگونکی مقایسه اختلاف آن با دیگر الگوریتم ها را نشان می دهد.

 


 

ضمیمه الف

سیستم فازی

هر دو از سیستم های فازی، با استفاده از جعبه ابزار فازی Matlab (Matlab Fuzzy Toolbox)، توسعه یافته اند. این سیستم فازی بر پایه ی رویکرد فازی Mamdani می باشد، و اولین وظیفه آن، این است که داده های ورودی و داده های خروجی سیستم فازی را تعریف کند. این مرحله به یک یک متخصص نیاز دارد که تصمیمات ماهرانه اخذ کند. برای اولین سیستم فازی، این ورودی ها در نمودار شماره A.1 قابل مشاهده اند، و خروجی ها اولین سیستم فازی در نمودار A.2 قابل مشاهده اند. یک شخص متخصص، در طراحی سیستم فازی، قواعدی را که رابطه ی بین ورودی ها و خروجی ها را پایه ریزی کده است را تشخیص می دهد. برخی از این قواعد برای سیستم اولیه در  زیر رده بندی شده اند.

 

پایین-سمت چپ (Lower-left)

بالا-سمت چپ (Upper-left)

پایین-سمت راست (Lower-right)

پایین-قسمت میانی (Lower-middle)

بالا-سمت راست (Upper-right)

بالا-قسمت میانی (Upper-middle)

میانه-میانه (Middle-middle)

میانه-سمت چپ (Middle-left)

نسبت طول یا درازا (Ratio Length)

میانه-سمت راست (Middle-right)

موقعیت حفره y             Y

موقعیت حفره x             X

شماری از خطوطی که بصورت عمودی قطع شده اند  à V (Vertical)

شماری از خطوطی که بصورت افقی در حالت 25 درصدی قطع شده اند àH25

شماری از خطوطی که بصورت افقی در حالت 75 درصدی قطع شده اند à H75

 

در زیر برخی از قوانین که توسط متخصص تشخیص داده شده اند را ذکر کرده ایم:

- اگر UL و UM و LR و LM و LL و ML و MM، ON باشند و V بالا باشد و H75  پایین باشد پس خروجی برابر با e است.

- اگر UM و UR و LR و LM و LL ، ON باشند و ML و ML و MM، OFF باشند و V بالا برود و H75  پایین برود پس خروجی برابر با z است.

- اگر UM و LM ، ON باشند و UL و LR و ML و MM، OFF باشند و V بالا برود و H75  پایین برود پس خروجی برابر با s است.

- اگر UL و UR ، ON باشند و UM و ML و LR و ML و MM، OFF باشند و V پایین  برود و H75  پایین برود پس خروجی برابر با y است.


 

نمودار 1.A (نمودار بالا) input های از سیستم دوم ، (a) input 1 (بالا گوشه سمت چپ ) ، (b) input 2 (بالا گوشه میانی ) ، ) c) input 3 ( بالا گوشه سمت راست) ، (d) input 4 ( میانه یا گوشه سمت راست ) ، (e) input 5 ( پایین گوشه سمت راست ) ، (f) input 6 (پایین گوشه میانی) ، (g) input 7 ( پایین گوشه سمت چپ ) ، (h) input 8 ( میانه گوشه سمت چپ ) ، (i) input 9 ( میانه گوشه میانی ) ، (j) input 10 (نسبت پهنا به عمق) ، (k) input 11 (شماری از خطوط قطع شده یه صورت عمودی ) ، (l) input 12  ( شماری از خطوط قطع شده بطور افقی 25 درصدی ) و (m) input 13 ( شماری از خطوط قطع شده بطور افقی 75 درصدی)

 

 

 

- اگر UL و UR، ON باشند و UM و ML و LR و ML و MM، OFF باشند و V در میانه باشد و H75  پایین برود پس خروجی برابر با y است.

- اگر UM و UR ، ON باشند و UL و ML و LR و LL و ML و MM، OFF باشند و V پایین برود و H75  پایین برود پس خروجی برابر با f است.

 

و همچنان این روند ادامه دارد.






پیوست :

 

تحقیق مورد نظر بر گرفته شده از مهند الاتا و محمد ال شبی در تاریخ 11 اگوست سال 2005 است .

 

درباره مهند آلاتا :

مهند الاتا (دکترا) ، در سال 1969 در عمان ، اردن ، متولد شده و کارشناسی اش را در دانشگاه علوم و فناوری اردن در سال 1992 ، تکمیل کرده است . مدرک کارشناسی ارشد خود را در دانشگاه کونکوردیا (Concordia) ئر مونترال کانادا در سال 2001 اخذ کرده است . تحقیقات او معطوف به مجمو عه های فازی و سیستم های فازی ، کنترل هوشمند اتوماسیون و رباتیک ، می باشد . او از سال 2001 بعنوان دستیار استاد در دانشگاه علم و فناوری اردن و تکنولوژی در بخش مکاترونیک در گروه مهندسی مکانیک ، شروع به تدریس کرد .

 

درباره محمد ال شبی :

محمد ال شبی ، در سال 1980 در کویت ، بدنیا امد ، کارشناسی اش را در شاخه ی مکاترونیک از دانشگاه علم و فناوری اردن در سال 2002 اخذ کرد ، مردک کارشناسی ارشدش را از دانشگاه علم و فناوری اردن در سال 2005 او در ازمایشگاهی در دانشگاه فیلادفیا (Philadelphia) در گروه مهندسی مکانیک ، سورپرایز یا ناظر است .



[1] تشخیص کاراکتر نوری

[2] Applications

[3] Borders

[4] Fuzzy System

0
3

مسعود کریمی    ۱۸ مهر ۱۳۹۲
شرمنده عکس ها نیومده اما اگر مطلب رو بخونید می فهمید در ایم مورد تا حالا در ایران کار نشده و مبحث سیستم فازی یک علم جدید و نا شناختست در ایران ولی در ایم مقاله من الگوریتم های تشخیص کارکتر در عکس رو مورد بررسی قرار دادم و اگر سوالی داشتید بپرسید توضیح خواهم داد چون در این زمینه من در حال پژوهش هستم

dina...joon    ۱۸ مهر ۱۳۹۲
من که چیزی نفهمیدم...



بازدید: 475
نظرات: 4
0
7
بازدید: 708
نظرات: 0
0
4
بازدید: 835
نظرات: 0
0
2
بازدید: 885
نظرات: 0
0
0