Extraction de données texte à partir de fichiers PDF

Question

Extraction de données texte à partir de fichiers PDF

Demandé el 4 de Octobre, 2010: Quand la question a-t-elle été
42606 affichage: Nombre de visites la question a
4 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Est-il possible d'analyser des données texte à partir de fichiers PDF dans R ? Il ne semble pas y avoir de package pertinent pour une telle extraction , mais est-ce que quelqu'un a essayé ou vu cela dans R ?

En Python, il y a PDFMiner , mais j'aimerais garder cette analyse dans R si possible.

Aucune suggestion?

Demandé el 4 de Octobre, 2010 par DrewConway

Answer 1

4 Réponses

Answer 2

29voto

Remko Duursma Points 1679

Il s'agit d'un fil de discussion très ancien, mais pour référence future : le package pdftools R extrait le texte des PDF.

Répondu el 6 de Juillet, 2016 par Remko Duursma (1679 Points )

Answer 3

9voto

NiuBiBang Points 630

Un collègue m'a fait découvrir cet outil open source pratique : http://tabula.nerdpower.org/ . Installez, téléchargez le PDF et sélectionnez le tableau dans le PDF qui nécessite la data-ization. Pas une solution directe dans R, mais certainement mieux que le travail manuel.

Répondu el 5 de Août, 2013 par NiuBiBang (630 Points )

Answer 4

9voto

willallgs Points 91

Une solution purement R pourrait être :

 library('tm')
file <- 'namefile.pdf'
Rpdf <- readPDF(control = list(text = "-layout"))
corpus <- VCorpus(URISource(file), 
      readerControl = list(reader = Rpdf))
corpus.array <- content(content(corpus)[[1]])

alors vous aurez des lignes pdf dans un tableau.

Répondu el 7 de Juin, 2016 par willallgs (91 Points )

Answer 5

6voto

DataProphets Points 106

install.packages("pdftools")
library(pdftools)


download.file("http://www.nfl.com/liveupdate/gamecenter/56901/DEN_Gamebook.pdf", 
              "56901.DEN.Gamebook", mode = "wb")

txt <- pdf_text("56901.DEN.Gamebook")
cat(txt[1])

Répondu el 29 de Mai, 2017 par DataProphets (106 Points )

Extraction de données texte à partir de fichiers PDF

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Extraction de données texte à partir de fichiers PDF

Réponses

Questions connexes

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: