Difference between revisions of "Tesseract OCR for Digital Preservation"

From Noolaham Foundation
Jump to navigation Jump to search
Line 1: Line 1:
 
Tesseract OCR for Digital Preservation
 
Tesseract OCR for Digital Preservation
  
Title:</br>
+
'''Title:</br>'''
 
Tesseract OCR for Digital Preservation
 
Tesseract OCR for Digital Preservation
  
Document Type:</br>
+
'''Document Type:</br>'''
 
Standard Operating Procedure
 
Standard Operating Procedure
  
Security Classification:</br>
+
'''Security Classification:</br>'''
 
Technology, Digital Preservation
 
Technology, Digital Preservation
  
Department:</br>
+
'''Department:</br>'''
 
NF Technology
 
NF Technology
  
Author (s):</br>
+
'''Author (s):</br>'''
Natkeeran,Sangeetha  
+
Natkeeran </br>
 +
Sangeetha  
  
Approved By:</br>
+
'''Approved By:</br>'''
  
 
Year:</br>
 
Year:</br>

Revision as of 22:30, 8 July 2020

Tesseract OCR for Digital Preservation

Title:
Tesseract OCR for Digital Preservation

Document Type:
Standard Operating Procedure

Security Classification:
Technology, Digital Preservation

Department:
NF Technology

Author (s):
Natkeeran
Sangeetha

Approved By:

Year:
April 2020

நோக்கம் (Purpose of the Document)

நூலக நிறுவனத்தில் மின்வருடப்பட்ட ஆவணங்களின் ஒவ்வொரு தனிப்பட்ட TIF ஆவணங்களையும் text file ஆக மாற்றி வலைத்தளத்தில் பதிவேற்றம் செய்வதற்கும், மின்னூல் உருவாக்கத்திற்கு அடிப்படையாகத் தேவைப்படும் Text (எழுத்துருக்களை) பெற்றுக்கொள்வதற்கு Tesseract4 திறந்த வெளி (Open Source) மென்பொருட்களைப் பயன்படுத்தி உருவாக்கப்பட்ட தானியக்க script இதுவாகும்.

பிரச்சினைகள் (Problems)

மின்வருடப்படும் ஆவணங்கள்மின்னூலாகவும், எழுத்துணரியாக்க கோப்பாக நூலக வலைத்தளத்தில் பதிவேற்றப்படுவதற்கும் தேவை உள்ளது. இதுவரை காலமும் Google OCR பயன்படுத்தப்பட்டது. Google OCR தனிநபர் சேவையாகவும், திறந்த கட்டற்ற மென்பொருளாகவும் அல்லாத காரணத்தால் பிற சேவைகளை நாட வேண்டிய தேவை ஏற்பட்டது அல்லது பணம் செலுத்த வேண்டிய தேவை ஏற்படும்.

நன்மைகள் (Benefits)

Tesseract4 திறந்த மூல கட்டற்ற மென்பொருளாக உள்ள காரணத்தால் இதன் பயன்பாடு நூலகத்திற்கு மிக அவசிய தேவையாகக் கருதப்படுகிறது. ஆரம்பகட்ட நிலையிலேயே இப்போது இதன் சேவை காணப்பட்டாலும் விரைவில் இது ஒரு சிறந்த சேவையாக உருவாக்கம் பெறும். இதன் மூலம் நூலகத்திற்கு தேவையான எழுத்துணரி சார்ந்த தேவைகளை பூர்த்தி செய்துகொள்ள முடியும். Audience இந்த script, Digital Preservation ல் பங்குவகிப்போருக்கும் நூலக பணியாளர்களுக்கும், எழுத்துணரியாக்கம் சார்ந்த செயற்பாடுகளில் ஈடுபடுவோருக்கு பயனுள்ளதாக அமையும்.

Prerequisites

  • Python 3
  • Tesseract OCR
  • Text Cleaner

Script ஐ கையாளும் முறை

Step 1:
எழுத்துணரியாக்கம் செய்யப்பட வேண்டிய ஆவணத்தின் TIF கோப்புக்கள் அடங்கிய Folder ன் path ஐ script ல் குறிப்பிடல்

Step2:
script ஐ run செய்தல்

Reference: