111 votes

Erreur de fonctionnement de Tesseract

J'ai un problème avec l'exécution du moteur tesseract-ocr sous linux. J'ai téléchargé les données de la langue RUS et les ai placées dans le répertoire tessdata (/usr/local/share/tessdata). Lorsque j'essaie d'exécuter tesseract avec la commande tesseract blob.jpg out -l rus le système affiche une erreur :

Error opening data file /usr/local/share/tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.

Failed loading language eng
Tesseract couldn't load any languages!

Could not initialize tesseract.

Selon guide de compilation J'ai utilisé export TESSDATA_PREFIX='/usr/local/share/' pour pointer mon répertoire tessdata. Peut-être devrais-je modifier les fichiers de configuration ? Tesseract essaie de charger des fichiers de données 'eng' au lieu de 'rus'.

Capture d'écran : http://i.stack.imgur.com/I0Guc.png

0voto

jrfernan Points 1

Comment j'ai résolu le problème dans mon Manjaro Xfce :

Message "TesseractError : (1, 'Error opening data file /home/julio/snap/tesseract/common/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'eng' Tesseract n'a pu charger aucune langue ! Impossible d'initialiser tesseract.') "

Puis, dans mon Manjaro, j'ai tapé : sudo pacman -S tesseract Le système a alors installé à la fois "tesseract" et un paquet nommé "leptonica".

Après cette étape, je pensais que tout était ok, et j'ai essayé d'exécuter mon simple script. Cependant, le message d'erreur s'est transformé en quelque chose comme ceci (il a changé l'emplacement précédent "/home" en un autre emplacement semblable à "/usr") : ""Veuillez vous assurer que la variable d'environnement TESSDATA_PREFIX est définie sur votre répertoire "tessdata". Failed loading language 'eng' Tesseract n'a pu charger aucune langue ! Impossible d'initialiser tesseract.')""

Puis j'ai réalisé qu'il était apparu ce message lorsque j'ai installé "tesseract" avec pacman : "Vous devez installer un des paquets tesseract-data-* ou tout le groupe tesseract-data".

Alors, j'ai essayé la commande : "sudo pacman -S tesseract-data", et le système m'a présenté de nombreuses options de langues. J'ai donc choisi quelques langues, installé comme suit, et le module a commencé à fonctionner comme un charme :

sudo pacman -S tesseract-data-eng

sudo pacman -S tesseract-data-por

sudo pacman -S tesseract-data-fra

sudo pacman -S tesseract-data-spa

J'ai essayé quelques caractères spéciaux portugais (comme "ão"), qui n'ont fonctionné que lorsque j'ai utilisé l'argument "lang='por'" dans le fichier pytesseract.image_to_string(img,lang='por')

0voto

innovatism Points 136

A partir de 2021, ma solution pour Ubuntu est de télécharger les fichiers zip à partir de https://github.com/tesseract-ocr/tessdata_best/releases/tag/4.1.0 extraire et copier les éléments nécessaires .traineddata dans /usr/local/share/tessdata . C'est le dossier par défaut dans lequel tesseract 4.1.1 recherche les données entraînées.

0voto

Viktor M. Points 21

J'ai eu le même problème avec la langue DEU sur macOS. J'ai pu le résoudre en installant toutes les langues supplémentaires comme ceci :

brew install tesseract-lang

comme suggéré sur https://formulae.brew.sh/formula/tesseract

0voto

**Si vous avez un système d'exploitation Windows, veuillez ajouter votre TesseractOCR à la variable système. Par exemple

  1. Trouvez le chemin où Tesseract est installé dans votre lecteur c (dans mon cas r". C:\Program Fichiers \Tesseract -OCR \tesseract.exe ")** 2)Vérifiez que vous avez les fichiers requis, c'est-à-dire tessdata, tessdata, si ce n'est pas le cas, téléchargez-le à partir du site suivant https://github.com/tesseract-ocr/tessdata https://github.com/tesseract-ocr/langdata (Au moins les langues que vous souhaitez convertir)
  2. le passer dans le répertoire principal dans mon cas C:\Program Fichiers \Tesseract -OCR 4)Ajoutez le chemin du répertoire à la variable d'environnement de votre système pour que
    rechercher une variable d'environnement dans la barre de démarrage aller à la variable d'environnement cliquez sur le chemin dans la variable d'environnement de votre système (PAS DANS LA VARIABLE D'ENVIRONNEMENT DE L'UTILISATEUR) passez le chemin de tesseractocr

c'est tout...

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X