Tesseract OCR for Digital Preservation

From Noolaham Foundation
Revision as of 01:07, 7 July 2020 by Parathan (talk | contribs) (Created page with "Tesseract OCR for Digital Preservation Title Tesseract OCR for Digital Preservation Document Type Standard Operating Procedure Security Classification Technology, Digital Pre...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Tesseract OCR for Digital Preservation

Title Tesseract OCR for Digital Preservation Document Type Standard Operating Procedure Security Classification Technology, Digital Preservation Department NF Technology Author (s) Natkeeran,Sangeetha Approved By


Year April 2020

நோக்கம் (Purpose of the Document)

நூலக நிறுவனத்தில் மின்வருடப்பட்ட ஆவணங்களின் ஒவ்வொரு தனிப்பட்ட TIF ஆவணங்களையும் text file ஆக மாற்றி வலைத்தளத்தில் பதிவேற்றம் செய்வதற்கும், மின்னூல் உருவாக்கத்திற்கு அடிப்படையாகத் தேவைப்படும் Text (எழுத்துருக்களை) பெற்றுக்கொள்வதற்கு Tesseract4 திறந்த வெளி (Open Source)  மென்பொருட்களைப் பயன்படுத்தி உருவாக்கப்பட்ட தானியக்க script இதுவாகும்.

பிரச்சினைகள் (Problems)

மின்வருடப்படும் ஆவணங்கள்மின்னூலாகவும், எழுத்துணரியாக்க கோப்பாக நூலக வலைத்தளத்தில் பதிவேற்றப்படுவதற்கும் தேவை உள்ளது. இதுவரை காலமும் Google OCR பயன்படுத்தப்பட்டது. Google OCR தனிநபர் சேவையாகவும், திறந்த கட்டற்ற மென்பொருளாகவும் அல்லாத காரணத்தால் பிற சேவைகளை நாட வேண்டிய தேவை ஏற்பட்டது அல்லது பணம் செலுத்த வேண்டிய தேவை ஏற்படும்.

நன்மைகள் (Benefits)

Tesseract4 திறந்த மூல கட்டற்ற மென்பொருளாக உள்ள காரணத்தால் இதன் பயன்பாடு நூலகத்திற்கு மிக அவசிய தேவையாகக் கருதப்படுகிறது. ஆரம்பகட்ட நிலையிலேயே இப்போது இதன் சேவை காணப்பட்டாலும் விரைவில் இது ஒரு சிறந்த சேவையாக உருவாக்கம் பெறும். இதன் மூலம் நூலகத்திற்கு தேவையான எழுத்துணரி சார்ந்த தேவைகளை பூர்த்தி செய்துகொள்ள முடியும். Audience இந்த script, Digital Preservation ல் பங்குவகிப்போருக்கும் நூலக பணியாளர்களுக்கும், எழுத்துணரியாக்கம் சார்ந்த செயற்பாடுகளில் ஈடுபடுவோருக்கு பயனுள்ளதாக அமையும்.

Prerequisites Python 3 Tesseract OCR Text Cleaner NLTK - Natural Language Toolkit Script ஐ கையாளும் முறை Step 1: எழுத்துணரியாக்கம் செய்யப்பட வேண்டிய ஆவணத்தின் TIF கோப்புக்கள் அடங்கிய Folder ன் path ஐ script ல் குறிப்பிடல்

Step2: script ஐ run செய்தல்

Reference: Github இணைப்பு: https://github.com/tesseract-ocr/tesseract Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw