tesseract-ocr

Tesseract command line OCR tool
  https://github.com/tesseract-ocr
  18
  12 reviews



The Tesseract OCR engine was one of the top 3 engines in the 1995 UNLV Accuracy test. Between 1995 and 2006 it had little work done on it, but since then it has been improved extensively by Google and is probably one of the most accurate open source OCR engines available. It can read a wide variety of image formats and convert them to text in over 40 languages. This package includes the command line tool.
Latest reviews
5
Knezev87 2 months ago

Odličan

4
ArnaudDorthe 1 year ago

Could someone kindly update it to the version 4 please ?

5
publicFriend 3 years ago

Great!

5
reddot 4 years ago

wow !!! converted a jpg scan to text, saved me allot of time!!!

5
observativetiger 4 years ago

Works great with gscan2pdf.

5
Diesel_F 4 years ago

Justo lo que necesitaba. (topper, gracias por tu reseña tan informativa)

4
topper 5 years ago

Es un buen programa. Si lo instalas, recuerda que tienes que añadir también el archivo de idioma correspondiente (tesseract-ocr-spa --> para español; o los que necesites). Ten en cuenta que se trabaja desde la consola con archivos .tif [p. ej.: tesseract archivo.tif archivo-resultante -l spa]. Si quieres algo más visual, tienes, además, que instalar un programa que se llama YAGF (lo hallarás en los repositorios). De esta manera podrás trabajar en un entorno gráfico con selección de áreas para realizar el OCR, etc. Para terminar de completarlo, puedes añadir otro programa llamado CUNEIFORM.

2
juandiego 5 years ago

No lee bien el texto no linial y debería ser multilenguaje.

5
pbojan 5 years ago

Great OCR engine

5
ulysses 7 years ago

Excellent!

5
RevDieter 8 years ago

The tesseract engine provides recognition of German Fraktur script - and to my (limited) knowledge, no other free ocr engine provides that. I think that's awesome!

4
Alexio 9 years ago

One of the most accurate free software OCR engines that handles image files in TIFF format (with filename extension .tif); other file formats need to be converted to TIFF before being submitted to Tesseract.