85 votes

Structure d'un fichier PDF ?

Pour un petit projet, je dois analyser des fichiers pdf et en prendre une partie spécifique (une simple chaîne de caractères). J'aimerais utiliser python pour faire cela et j'ai trouvé plusieurs bibliothèques qui sont capables de faire ce que je veux d'une certaine manière.

Mais maintenant, après quelques recherches, je me demande quelle est la structure réelle d'un fichier pdf. Quelqu'un sait-il s'il existe une spécification ou des explications en ligne ? J'ai trouvé un lien sur adobe mais il semble que ce soit un lien mort :(

51voto

minty Points 7864

Voici un lien vers le matériel de référence d'Adobe

http://www.adobe.com/devnet/pdf/pdf_reference.html

Il faut cependant savoir que le PDF ne concerne que la présentation, et non la structure. L'analyse syntaxique ne sera pas facile.

0 votes

Ok... Greant le lien est ok maintenant... Quand j'ai fait mes recherches, je n'ai pas pu télécharger la dernière référence.

70 votes

Ne le fixez pas trop longtemps, vous deviendrez fou.

7 votes

Je suis nouveau dans le travail sur l'analyse syntaxique des pdf, et j'ai trouvé quelques liens que je veux partager, lien1 , lien2 y lien3 .

49voto

Jeff Moser Points 11452

J'ai trouvé le Introduction GNU au PDF pour être utile à la compréhension de la structure. Il comprend une liste facilement lisible exemple de fichier PDF qu'ils décrivent dans les moindres détails.

Autres liens utiles :

25voto

danio Points 2962

Lorsque j'ai commencé à travailler avec le format PDF, j'ai trouvé que le format Référence PDF très difficile à naviguer. Il peut être utile de savoir que l'aperçu de la structure des fichiers se trouve dans Syntaxe, et que ce qu'Adobe appelle la structure des documents est la structure des objets et non la structure des fichiers. Cela se trouve également dans Syntaxe. La description des opérateurs est cachée dans l'annexe A - très utile pour comprendre ce qui se passe dans les flux de contenu. Si vous avez un jour le malheur de travailler avec des espaces de couleur, vous le trouverez caché dans Graphiques ! J'espère que ces indications vous aideront à trouver les choses plus rapidement que je ne l'ai fait.

Si vous utilisez Windows, pdftron CosEdit vous permet de parcourir la structure de l'objet pour la comprendre. Il existe une démo gratuite qui vous permet d'examiner le fichier mais pas de l'enregistrer.

2 votes

+1. Il semble que CosEdit soit un excellent navigateur d'introduction, pas parfait mais bien meilleur que d'essayer de parcourir à la souris le fichier binaire brut :/.

0 votes

J'ai téléchargé CosEdit, mais il a rejeté mon PDF. Le même PDF est accepté par d'autres programmes. CosEdit a peut-être raison, mais il ne m'a pas aidé à déterminer ce qui n'allait pas avec mon PDF.

10voto

jmah Points 1770

Voici le brut référence du PDF 1.7 et voici un article décrire la structure d'un PDF fichier. Si vous utilisez Vim, l'option plugin pdftk est un bon moyen d'explorer le document sous une forme un peu moins brute, et la fonction pdftk lui-même (et son code source GPL) est un excellent moyen de séparer les documents.

1 votes

La référence brute semble inutile. Elle ne contient qu'une seule page ?

0 votes

@Carcamano La référence brute est un (gros) paquet avec un certain nombre de pièces jointes. La première pièce jointe décrit le format PDF et compte 1310 pages.

7voto

J'essaie de faire à peu près la même chose. La référence PDF est un document très difficile à lire. Ce tutoriel est un meilleur début, je pense.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X