Home / General / What is OCR technology?

What is OCR technology?

அச்சிட்ட ஆவணங்களை டெக்ஸ்டாக மாற்றும் OCR தொழில் நுட்பம்

ஸ்கேனர் கொண்டு படங்களை ஸ்கேன் செய்து அவற்றை டிஜிட்டல் வடிவில் மாற்றிக் கொள்ளலாம் என்பது எல்லோரும் அற்ந்ததே. அதே போல் ஸ்கேனர் பயன்படுத்தி அச்சிடப்பட்ட அல்லது கையினால் எழுதப் பட்ட ஆவணங்களை ஸ்கேன் செய்து பின்னர் OCR தொழில் நுட்பத்துடன் edit செய்யக் கூடிய ஒரு டொகுயுமென்டாக மாற்றிக் கொள்ளவும் முடியும். ஆங்கிலத்தில் அச்சிடப்பட்ட ஆவணங்களை மீண்டும் டைப் செய்ய வேண்டிய தேவை ஏற்பட்டால் ஓ.சீ.ஆர் தொழில் நுட்பத்தைப் பயன்படுத்தி உடனடியாகவே அவற்றை ஸ்கேன் செய்து (editable text) ஆக மாற்றி விடலாம்.

1
Optical Character Recognition என்பதன் சுருக்கமே OCR. இது அச்சிட்ட அல்லது கையினால் எழுதப்பட்ட எழுத்துக்களை கணினியினால் அடையாளம் காணும் ஒரு தொழில் நுட்பமாகும். இச் செயற்பாட்டில் ஆவணத்தை ஒரு Bitmap இமேஜ் ஆக ஸ்கேன் செய்தல், ஸ்கேன் செய்ததை அடையாளம் காணல், அதனை ASCII போன்ற text code வடிவிற்கு மாற்றல் ஆகிய செயற்பாடுகளைக் கொண்டிருக்கும்.

அதேவேளை ஒரு புத்தகம் அல்லது சஞ்சிகையில் வெளிவந்த ஏதோவொரு ஆக்கமொன்றை எடிட் செய்யக் கூடிய ஆவணமாக மாற்ற வேண்டுமனால் ஒரு ஸ்கேனர் மட்டும் கொண்டு இதனை மாற்ற முடியாது. ஸ்கேனர் மூலம் இதனை ஒரு இமேஜ் பைலாக மாற்றிக் கொள்ளலாம். இவ்வாறு ஸ்கேன் செய்த அல்லது டிஜிட்டல் கேமரா மூலம் எடுக்கப்பட படத்திலிருந்து டெக்ஸ்டை வாசித்தறிய ஒரு ஓ.சீ.ஆர் மென்பொருளும் அவசியம். ஓ.சீ.ஆர் மென்பொருள் அந்த ஆவணத்திலிருந்து எழுத்துக்கள் ஒவ்வொன்றாக கண்டறிந்து சொல்லாகவும் வாக்கியமாகவும் மாற்றி விடுகிறது.

ஓ.சீ.ஆர் தொழில் நுட்பம் மூலம் ஸ்கேன் செய்த ஆவணம் மட்டுமன்றி பீ.டீ.எப் பைல், மற்றும் டிஜிட்டல் கேமரா முலம் எடுக்கப்பட்ட படங்களில் எழுத்துக்கள் இருக்குமானால் அவ்வெழுத்துக்களையும் ஓ.சீ.ஆர் மூலம் எடிட் செய்யக் கூடிய பைலாக மாற்றிக் கொள்ளலாம்

ஓ.சீ.ஆர் தொழில் நுட்பம் புத்தகங்களை டிஜிட்டல் வடிவிற்கு மாற்றவும் பாதுகாக்கவுமென நூலகங்களில் பெருமளவு பயன்படுத்தப்படுககிறது. அதேபோல் தபால் நிலையங்களில் தபால்களை வகைப்படுத்தல் மற்றும் வங்கிகளில் காசோலைகளை இனம் காணல் போன்ற செயற்பாடுகளுக்கும் பயன்படுத்தப் படுBறது.

எனினும் ஓ சீ.ஆர் தொழில் நுட்பத்ததின் மூலம் மாற்றப்படும் ஆவணம் நூறு வீதம் திருத்தமாக இருக்கும் என சொல்ல முடியாது. எனினும் காலப்போக்கில் இத்தொழில் நுட்பம் மேலும் வளரும் என எதிர் பார்க்கலாம்.

ஓ.சீ.ஆர் தொழிநுட்பம் கொண்ட பல மென்பொருள்கள் தற்போது பாவனைIலுள்ளன. அவற்றில் OmniPage, ABBYY FineReader, ParaVision, Recognita, ReadIris என்பவற்றை உதாரணமாகக் குறிப்பிடலாம். சில ஓ.சீ.ஆர் மென்பொருள்கள் ஸ்கேனர் வாங்கும் போதே இலவசமாகக் கிடைக்கும்.

ஓ.சீ.ஆர் மென்பொருள் மைக்ரோஸொப்ட் ஒபிஸ் தொகுப்பிலும் இணைந்தே வருகிறது. இவ்வசதி தற்போது ஆங்கிலம் உட்பட ஒரு சில மொழிகளுக்கே கிடைக்கிறது.

MS-Office XP / 2003 யுடன் வரும் ஓ.சீ.ஆர் மென்பொருளை Start  Programs  MS-Office Tools  MS-Office Document Scanning என்பதைத் தெரிவு செய்வதன் மூலம் இயக்கலாம். ஸ்கேன் செய்த பின்னர் அதனை நேரடியாக அங்கிருந்தே MS-Word க்குள் நுழைத்து விடலாம்.

ABBYY FineReader எனும் ஓ.சீ.ஆர் மென்பொருள் மூலம் ஆவணத்தை ஸ்கேன் செய்தல், எழுத்துக்களைக் கண்டறிதல், நீங்கள் விரும்பும் வடிவில் சேமித்துக் கொள்ளல் என மூன்றே படிகளில் இலகுவாக மாற்றிக் கொள்ளலாம். மாற்றிய பைலை DOC, RTF, XLS, PDF, HTML, TXT என பல்வேறு பைல் வடிவங்களில் சேமிக்கவும் முடியும்.

அதேபோல் தமிழில் அச்சிடப்பட்ட ஆவணங்களை ஓசீஆர் முறைப்படி டெக்ஸ்டாக மாற்றிக் கொள்ள “பொன்விழி” எனும் மென்பொருள் உதவுகிறது. பொன்விழி பற்றி மேலுமொரு ஐ.டி வலத்தில் பார்க்கலாம்.

-அனூப்-

About Imthiyas Anoof

Check Also

ebook

tamiltech.lk eMag மின்னிதழ்

Download free e-book Download

Leave a Reply

Your email address will not be published. Required fields are marked *

You cannot copy content of this page கொப்பி பண்ணாதீங்கய்யா, சுயமா எழுதுங்க!