Grippe aviaire Situation en Indonésie - bulletin No.9 Plus d'informations Flambées épidémiques : plus d'informations

Question

Grippe aviaire Situation en Indonésie - bulletin No.9 Plus d'informations Flambées épidémiques : plus d'informations

Demandé el 21 de Avril, 2009: Quand la question a-t-elle été
18485 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis à la recherche d'une façon rapide et fiable à lire/analyser des gros fichiers PDF en Ruby (sur Linux et OSX).

Jusqu'à maintenant j'ai trouvé la plutôt vieille et simple PDF-toolkit (un pdftotext-wrapper) et PDF-reader, qui a été incapable de lire la plupart de mes fichiers. Bien que les deux bibliothèques de fournir exactement la fonctionnalité que je cherchais.

Ma question: Ai-je raté quelque chose? Est-il un outil mieux adapté (plus rapide et plus fiable) pour résoudre mon problème?

Demandé el 21 de Avril, 2009 par Javier

Answer 1

5 Réponses

Answer 2

24voto

pw. Points 615

Docsplit pourrait vous être utile:

Docsplit est un utilitaire de ligne de commande et une bibliothèque Ruby permettant de scinder des documents en plusieurs éléments: texte brut UTF-8 interrogeable, images de page ou vignettes dans n’importe quel format, PDF, pages simples et métadonnées de document (titre, auteur, nombre de pages). ...)

Répondu el 3 de Mars, 2010 par pw. (615 Points )

Answer 3

2voto

Javier Points 1260

Après avoir essayé différentes méthodes, j'utilise maintenant PDF-Toolkit . C'est assez vieux, mais c'est rapide, stable et fiable. En outre, il n’est vraiment pas nécessaire qu’elle soit nouvelle, car elle enveloppe simplement les utilitaires de ligne de commande xpdf .

Répondu el 27 de Avril, 2009 par Javier (1260 Points )

Answer 4

1voto

insane.dreamer Points 1112

Vous pouvez utiliser JRuby et un analyseur de bibliothèque Java PDF tel que ApachePDFBox (https://www.ohloh.net/p/pdfbox). Voir aussi http://java-source.net/open-source/pdf-libraries .

Répondu el 21 de Avril, 2009 par insane.dreamer (1112 Points )

Answer 5

0voto

Terry Points 742

Voici quelques options:

http://en.wikipedia.org/wiki/List_of_PDF_software

À partir de ce lien, et la recherche de sourceforge, il y a quelques utilitaires de ligne de commande qui pourrait faire ce que vous voulez, comme celui-ci: http://pdftohtml.sourceforge.net/

En fonction de vos besoins et de ce que les fichiers Pdf regarder le souhaitez, vous pouvez chercher à l'aide de l'API Google Docs (télécharger le fichier PDF, puis de le télécharger sous forme de texte), ou pourrait essayer quelque chose comme gocr. J'ai eu beaucoup de chance d'analyse le texte de l'image avec gocr dans le passé, et vous avez juste à rebondir à la coque pour le faire, comme gocr -i whatever.pdf (je pense qu'il fonctionne avec des fichiers Pdf).

L'inconvénient est qu'ils ne sont pas des pur-Ruby implémentations, mais beaucoup de la bonne (et gratuit) des projets OCR semble être fait de cette manière.

Répondu el 21 de Avril, 2009 par Terry (742 Points )

Answer 6

0voto

Alex Perrier Points 370

Si vous avez juste besoin d'extraire le contenu textuel d'un fichier pdf, pdftohtml sur sourceforge est efficace. il n'est pas adapté pour traiter des images.

Répondu el 12 de Février, 2010 par Alex Perrier (370 Points )

Grippe aviaire Situation en Indonésie - bulletin No.9 Plus d'informations Flambées épidémiques : plus d'informations

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Grippe aviaire Situation en Indonésie - bulletin No.9 Plus d&apos;informations Flambées épidémiques : plus d&apos;informations

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by:

Grippe aviaire Situation en Indonésie - bulletin No.9 Plus d'informations Flambées épidémiques : plus d'informations