Je suis confronté à un problème lors de l'analyse syntaxique d'un fichier PDF con Jpedal .
En lisant le wordlist
à partir du Jpedal, j'obtiens des caractères déformés dans le fichier wordslist
. Cela se produit également lorsque l'on utilise OCR et lorsque je copie le texte du PDF et le colle dans Word ou un simple éditeur de texte. Ce que je comprends, c'est que ce PDF a été généré par Contexte du Quartz PDF en MAC OS X 10.6.4 qui est utilisé pour compresser la taille du fichier, mais qui est facilement visible sur les visionneuses de PDF. J'ai cherché une API Java permettant de décoder ce type de PDF, mais sans succès. Je recherche une application ou une API Java que je puisse utiliser pour le décoder ; elle doit être utilisable sur une machine Linux.