Structure d'un fichier PDF ?

Question

Structure d'un fichier PDF ?

Demandé el 17 de Septembre, 2008: Quand la question a-t-elle été
33222 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Pour un petit projet, je dois analyser des fichiers pdf et en prendre une partie spécifique (une simple chaîne de caractères). J'aimerais utiliser python pour faire cela et j'ai trouvé plusieurs bibliothèques qui sont capables de faire ce que je veux d'une certaine manière.

Mais maintenant, après quelques recherches, je me demande quelle est la structure réelle d'un fichier pdf. Quelqu'un sait-il s'il existe une spécification ou des explications en ligne ? J'ai trouvé un lien sur adobe mais il semble que ce soit un lien mort :(

Demandé el 17 de Septembre, 2008 par Valentin Jacquemin

Answer 1

5 Réponses

Answer 2

51voto

minty Points 7864

Voici un lien vers le matériel de référence d'Adobe

http://www.adobe.com/devnet/pdf/pdf_reference.html

Il faut cependant savoir que le PDF ne concerne que la présentation, et non la structure. L'analyse syntaxique ne sera pas facile.

Répondu el 17 de Septembre, 2008 par minty (7864 Points )

0 votes

Ok... Greant le lien est ok maintenant... Quand j'ai fait mes recherches, je n'ai pas pu télécharger la dernière référence.

Commenté el 18 de Septembre, 2008 par Valentin Jacquemin

70 votes

Ne le fixez pas trop longtemps, vous deviendrez fou.

Commenté el 18 de Septembre, 2008 par Utilisateur non enregistré

7 votes

Je suis nouveau dans le travail sur l'analyse syntaxique des pdf, et j'ai trouvé quelques liens que je veux partager, lien1 , lien2 y lien3 .

Commenté el 28 de Mars, 2015 par RBK

Afficher 1 autres commentaires

Answer 3

49voto

Jeff Moser Points 11452

J'ai trouvé le Introduction GNU au PDF pour être utile à la compréhension de la structure. Il comprend une liste facilement lisible exemple de fichier PDF qu'ils décrivent dans les moindres détails.

Autres liens utiles :

Livre PDF Succinctly est plus long et comporte des photos utiles.
Introduction à l'intérieur du PDF est une présentation qui n'est pas aussi approfondie, mais qui donne un aperçu rapide et comporte de nombreuses images.

Répondu el 12 de Août, 2014 par Jeff Moser (11452 Points )

Answer 4

25voto

danio Points 2962

Lorsque j'ai commencé à travailler avec le format PDF, j'ai trouvé que le format Référence PDF très difficile à naviguer. Il peut être utile de savoir que l'aperçu de la structure des fichiers se trouve dans Syntaxe, et que ce qu'Adobe appelle la structure des documents est la structure des objets et non la structure des fichiers. Cela se trouve également dans Syntaxe. La description des opérateurs est cachée dans l'annexe A - très utile pour comprendre ce qui se passe dans les flux de contenu. Si vous avez un jour le malheur de travailler avec des espaces de couleur, vous le trouverez caché dans Graphiques ! J'espère que ces indications vous aideront à trouver les choses plus rapidement que je ne l'ai fait.

Si vous utilisez Windows, pdftron CosEdit vous permet de parcourir la structure de l'objet pour la comprendre. Il existe une démo gratuite qui vous permet d'examiner le fichier mais pas de l'enregistrer.

Répondu el 18 de Septembre, 2008 par danio (2962 Points )

2 votes

+1. Il semble que CosEdit soit un excellent navigateur d'introduction, pas parfait mais bien meilleur que d'essayer de parcourir à la souris le fichier binaire brut :/.

Commenté el 8 de Mai, 2009 par Jason S

0 votes

J'ai téléchargé CosEdit, mais il a rejeté mon PDF. Le même PDF est accepté par d'autres programmes. CosEdit a peut-être raison, mais il ne m'a pas aidé à déterminer ce qui n'allait pas avec mon PDF.

Commenté el 20 de Décembre, 2013 par LarsH

Answer 5

10voto

jmah Points 1770

Voici le brut référence du PDF 1.7 et voici un article décrire la structure d'un PDF fichier. Si vous utilisez Vim, l'option plugin pdftk est un bon moyen d'explorer le document sous une forme un peu moins brute, et la fonction pdftk lui-même (et son code source GPL) est un excellent moyen de séparer les documents.

Répondu el 17 de Septembre, 2008 par jmah (1770 Points )

1 votes

La référence brute semble inutile. Elle ne contient qu'une seule page ?

Commenté el 21 de Janvier, 2016 par Carcamano

0 votes

@Carcamano La référence brute est un (gros) paquet avec un certain nombre de pièces jointes. La première pièce jointe décrit le format PDF et compte 1310 pages.

Commenté el 10 de Novembre, 2018 par banbh

Answer 6

7voto

Utilisateur non enregistré Points 0

J'essaie de faire à peu près la même chose. La référence PDF est un document très difficile à lire. Ce tutoriel est un meilleur début, je pense.

Répondu el 9 de Juillet, 2009 par Utilisateur non enregistré (0 Points )

Structure d'un fichier PDF ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Structure d'un fichier PDF ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: