Convertir PDF digitalizado en PDF texto desde consola con tesseract

El objetivo es convertir un archivo PDF digitalizado directamente de un documento en un PDF de texto.

¿Qué necesitamos?

ImageMagic y Tesserant

sudo apt install imagemagick tesseract-ocr

Desactivamos las restricciones de ImageMagic

sudo mv /etc/ImageMagick-6/policy.xml /etc/ImageMagick-6/policy.xml_backup

Comandos para la conversión

Convertimos a tiff, pasamos el ocr y borramos el tiff:

convert -density 300 mi_doc.pdf -depth 8 mi_doc.tiff
tesseract mi_doc.tiff mi_doc.txt.pdf spa
rm mi_doc.tiff

En la línea del commando tesseract el tercer parámetro es el idioma, en nuestro caso español, si no se pone nada usa inglés y podemos saber que idiomas hay disponibles con el comando:

tesseract --list-langs

Posibles problemas

Si la imagen no está lo suficiente limpia o no es adecuada nos podemos encontrar errores como:

Image too small to scale!! (2x36 vs min width of 3)
LSTM: Training - Image not trainable
Tesseract not detecting text

Las razones pueden ser diversas: las imágenes están rotadas, no tienen nitidez, poca resolución, etc... a lo mejor con algún programa gráfico como Gimp puedes limpiar el tiff y conseguir mejores resultados.

Es cuestión de prueba y error y si es necesario ampliar la información con tu buscador favorito en internet.

Convertir PDF digitalizado en PDF texto desde consola con tesseract

¿Qué necesitamos?

ImageMagic y Tesserant

Desactivamos las restricciones de ImageMagic

Comandos para la conversión

Posibles problemas

Trending Articles

Mi 530d no arranca, códigos de avería

Ley Memoria Histórica o Democrática 2022 – Matrimonios con españoles – Cuba...

Coronel de la Guardia Nacional asume dirección de Polibolívar

TELEVISOR KONKA 43 PULG TV5-43K2 - 850.00USD

Silent Hill 2: Revelation (2012) 720p BRRip Dual Español Latino-Inglés

Merluzas en Airfryer con sofrito de pimientos rojos

[Wii] Silent Hill Shattered Memories [NTSC][WBFS][ESPAÑOL][MEGA]

Gobernador de Anzoátegui decreta 14 de noviembre como feriado no laborable

The Cranberries – When You’re Gone-Pronunciación Letra Traducción

QUÉDATE, BUEN JESÚS. Autor: Luis Iruarrízaga

Matan a dos personas en colonia Reparto Lempira, San Pedro Sula

Profetas de la Ciencia Ficción (Serie) Castellano

Fallece en Mérida el empresario Alvaro Juanes Ancona

ACTIVIDAD: El primer milagro de Jesús (para los más chiquitos)

Elodia, ahora en Playboy

Reguetoneros y productores que perdieron la vida

Coche de sustitucion en BMW al pasar campaña EGR

CDG INTERROGA A ZETA SECUESTRADOR DE TAMPICO

Ayuda!!!! Notificacion de Demanda Coppel

"MI VIDA FUE SIGNADA POR LA TRISTEZA Y LA POBREZA"