49 votes

Lecture de données de fichiers PDF dans R

Est-ce que c'est possible!?!

J'ai un tas de rapports hérités que je dois importer dans une base de données. Cependant, ils sont tous au format pdf. Existe-t-il des packages R capables de lire le pdf? Ou devrais-je laisser cela à un outil de ligne de commande?

Les rapports ont été créés en format Excel puis formatés en PDF, ils ont donc une structure régulière, mais de nombreuses "cellules" vides.

31voto

Justin Points 19077

Alors ... ça me rapproche même sur une table assez complexe.

Téléchargez un exemple de pdf à partir de bmi pdf

 library(tm)

pdf <- readPDF(PdftotextOptions = "-layout")

dat <- pdf(elem = list(uri='bmi_tbl.pdf'), language='en', id='id1')

dat <- gsub(' +', ',', dat)
out <- read.csv(textConnection(dat), header=FALSE)
 

21voto

Carl Witthoft Points 9799

Juste un avertissement pour les autres qui espèrent peut-être, pour extraire des données: le format PDF est un conteneur, pas un format. Si le document d'origine ne contient pas de texte, contrairement aux images bitmap du texte ou peut-être même plus laide de choses que je peux imaginer, rien d'autre que de l'OCR peut vous aider.

En plus de cela, dans ma triste expérience il n'y a aucune garantie que les applications qui créent des documents PDF tous se comportent de la même, de sorte que les données du tableau peuvent ou peuvent ne pas être lus dans l'ordre souhaité (en raison de la façon dont le doc a été construite). Faire preuve de prudence.

Probablement mieux à faire quelques étudiants diplômés de transcrire les données pour vous. Ils sont bon marché :-)

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X