Depuis aujourd'hui je le sais: la meilleure chose pour l'extraction de texte à partir de fichiers Pdf est TET, l'extraction de texte toolkit. TET est une partie de la PDFlib.com la famille de produits.
PDFlib.com est Thomas Merz. Dans le cas où vous ne reconnaissez pas son nom: Thomas Merz est l'auteur de "PostScript et PDF Bible".
TET de première incarnation est une bibliothèque. Que l'on peut probablement faire tout ce Budda006 voulait, y compris des informations de position au sujet de chaque élément sur la page. Oh, et il peut aussi extraire des images. Il recompose les images qui sont fragmentés en morceaux.
pdflib.com propose également une autre incarnation de cette technologie, le TET plugin pour Acrobat. Et la troisième incarnation est la PDFlib TET iFilter. C'est un outil autonome pour les postes de travail des utilisateurs. Ces deux sont gratuits (comme la bière) pour usage à des fins privées, à des fins non commerciales.
Et c'est vraiment puissant. Meilleur que celui d'Adobe extraction de texte. Il extrait du texte pour moi, là où d'autres outils (y compris Adobe) faire cracher des ordures.
Je viens de tester le bureau autonome de l'outil et de ce qu'ils disent sur leur page web est vrai. Il a une très bonne ligne de commande. Certains de mes "problèmes" PDF fichiers de test de l'outil manipulé à mon entière satisfaction.
Cette chose sera désormais ma recommandation pour chaque complexe et difficile PDF extraction de texte exigences.
TET est tout simplement génial. Il détecte les tables. À l'intérieur des tables, il identifie les cellules s'étendant sur plusieurs colonnes. Il identifie les lignes de la table et le contenu de chaque cellule du tableau séparément. Il traite très bien avec hyphenations: il élimine les traits d'union et restaure des mots complets. Il prend en charge non-ASCII langues (y compris CJK, l'arabe et l'hébreu). Lors de la rencontre des ligatures, il rétablit les caractères d'origine...
Lui donner un essai.