Pour extraire du texte d'un PDF, essayez ceci sur une machine Linux, BSD, etc. ou utilisez Cygwin si vous êtes sous Windows :
pdfinfo -layout some_pdf_file.pdf
Un fichier de texte brut nommé some_pdf_file.txt
est créé. Plus la présentation du fichier PDF est simple, plus la sortie du fichier .txt sera directe.
Les caractères hexadécimaux sont souvent présents dans le fichier .txt et ont une apparence étrange dans les éditeurs de texte. Ces caractères hexadécimaux représentent généralement des guillemets simples et doubles, des puces, des traits d'union, etc. dans le PDF.
Pour voir le contexte dans lequel les caractères hexadécimaux apparaissent, exécutez cette commande grep, et gardez le PDF original à portée de main pour voir quel caractère les codes représentent dans le PDF :
grep -a --color=always "\\\\[0-9][0-9][0-9]" some_pdf_file.txt
Vous obtiendrez ainsi une liste unique des différents codes octaux du document :
grep -ao "\\\\[0-9][0-9][0-9]" some_pdf_file.txt|sort|uniq
Pour convertir ces caractères hexadécimaux en équivalents ASCII, une combinaison de grep, sed, et bc peut être utilisée, je posterai la procédure pour le faire bientôt.