33 votes

Grippe aviaire Situation en Indonésie - bulletin No.9
Plus d'informations Flambées épidémiques : plus d'informations

Je suis à la recherche d'une façon rapide et fiable à lire/analyser des gros fichiers PDF en Ruby (sur Linux et OSX).

Jusqu'à maintenant j'ai trouvé la plutôt vieille et simple PDF-toolkit (un pdftotext-wrapper) et PDF-reader, qui a été incapable de lire la plupart de mes fichiers. Bien que les deux bibliothèques de fournir exactement la fonctionnalité que je cherchais.

Ma question: Ai-je raté quelque chose? Est-il un outil mieux adapté (plus rapide et plus fiable) pour résoudre mon problème?

24voto

pw. Points 615

Docsplit pourrait vous être utile:

Docsplit est un utilitaire de ligne de commande et une bibliothèque Ruby permettant de scinder des documents en plusieurs éléments: texte brut UTF-8 interrogeable, images de page ou vignettes dans n’importe quel format, PDF, pages simples et métadonnées de document (titre, auteur, nombre de pages). ...)

2voto

Javier Points 1260

Après avoir essayé différentes méthodes, j'utilise maintenant PDF-Toolkit . C'est assez vieux, mais c'est rapide, stable et fiable. En outre, il n’est vraiment pas nécessaire qu’elle soit nouvelle, car elle enveloppe simplement les utilitaires de ligne de commande xpdf .

1voto

insane.dreamer Points 1112

Vous pouvez utiliser JRuby et un analyseur de bibliothèque Java PDF tel que ApachePDFBox (https://www.ohloh.net/p/pdfbox). Voir aussi http://java-source.net/open-source/pdf-libraries .

0voto

Terry Points 742

Voici quelques options:

http://en.wikipedia.org/wiki/List_of_PDF_software

À partir de ce lien, et la recherche de sourceforge, il y a quelques utilitaires de ligne de commande qui pourrait faire ce que vous voulez, comme celui-ci: http://pdftohtml.sourceforge.net/

En fonction de vos besoins et de ce que les fichiers Pdf regarder le souhaitez, vous pouvez chercher à l'aide de l'API Google Docs (télécharger le fichier PDF, puis de le télécharger sous forme de texte), ou pourrait essayer quelque chose comme gocr. J'ai eu beaucoup de chance d'analyse le texte de l'image avec gocr dans le passé, et vous avez juste à rebondir à la coque pour le faire, comme gocr -i whatever.pdf (je pense qu'il fonctionne avec des fichiers Pdf).

L'inconvénient est qu'ils ne sont pas des pur-Ruby implémentations, mais beaucoup de la bonne (et gratuit) des projets OCR semble être fait de cette manière.

0voto

Alex Perrier Points 370

Si vous avez juste besoin d'extraire le contenu textuel d'un fichier pdf, pdftohtml sur sourceforge est efficace. il n'est pas adapté pour traiter des images.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X