44 votes

Extraction de données texte à partir de fichiers PDF

Est-il possible d'analyser des données texte à partir de fichiers PDF dans R ? Il ne semble pas y avoir de package pertinent pour une telle extraction , mais est-ce que quelqu'un a essayé ou vu cela dans R ?

En Python, il y a PDFMiner , mais j'aimerais garder cette analyse dans R si possible.

Aucune suggestion?

29voto

Remko Duursma Points 1679

Il s'agit d'un fil de discussion très ancien, mais pour référence future : le package pdftools R extrait le texte des PDF.

9voto

NiuBiBang Points 630

Un collègue m'a fait découvrir cet outil open source pratique : http://tabula.nerdpower.org/ . Installez, téléchargez le PDF et sélectionnez le tableau dans le PDF qui nécessite la data-ization. Pas une solution directe dans R, mais certainement mieux que le travail manuel.

9voto

willallgs Points 91

Une solution purement R pourrait être :

 library('tm')
file <- 'namefile.pdf'
Rpdf <- readPDF(control = list(text = "-layout"))
corpus <- VCorpus(URISource(file), 
      readerControl = list(reader = Rpdf))
corpus.array <- content(content(corpus)[[1]])

alors vous aurez des lignes pdf dans un tableau.

6voto

DataProphets Points 106
install.packages("pdftools")
library(pdftools)


download.file("http://www.nfl.com/liveupdate/gamecenter/56901/DEN_Gamebook.pdf", 
              "56901.DEN.Gamebook", mode = "wb")

txt <- pdf_text("56901.DEN.Gamebook")
cat(txt[1])

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X