Est-il possible de limiter le jeu de caractères recherché par tesseract (par exemple, rechercher uniquement les lettres az)? Cela améliorerait considérablement mes résultats.
Réponses
Trop de publicités? Créez un fichier de configuration (par exemple "lettres") dans le répertoire tessdata / configs - généralement /usr/share/tesseract/tessdata/configs
ou /usr/share/tesseract-ocr/tessdata/configs
Et ajoutez cette ligne au fichier de configuration:
tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz
... ou peut-être que [az] fonctionne .. ne sais pas :-)
Appelez ensuite tesseract comme ceci:
tesseract input.tif output nobatch letters
Cela limitera le tesseract à reconnaître uniquement les personnages recherchés
Ce didacticiel détaille les étapes nécessaires à la formation de Tesseract. Je l'ai trouvé très utile.