
¿Qué necesitamos?
ImageMagic y Tesserant
sudo apt install imagemagick tesseract-ocr
Desactivamos las restricciones de ImageMagic
sudo mv /etc/ImageMagick-6/policy.xml /etc/ImageMagick-6/policy.xml_backup
Comandos para la conversión
Convertimos a tiff, pasamos el ocr y borramos el tiff:convert -density 300 mi_doc.pdf -depth 8 mi_doc.tiffEn la línea del commando tesseract el tercer parámetro es el idioma, en nuestro caso español, si no se pone nada usa inglés y podemos saber que idiomas hay disponibles con el comando:
tesseract mi_doc.tiff mi_doc.txt.pdf spa
rm mi_doc.tiff
tesseract --list-langs
Posibles problemas
Si la imagen no está lo suficiente limpia o no es adecuada nos podemos encontrar errores como:- Image too small to scale!! (2x36 vs min width of 3)
- LSTM: Training - Image not trainable
- Tesseract not detecting text
Es cuestión de prueba y error y si es necesario ampliar la información con tu buscador favorito en internet.