108 votes

Extraire des images de PDF sans rééchantillonnage, en python ?

Comment extraire toutes les images d’un document pdf, à la résolution et au format natifs ? (Ce qui signifie extraire tiff comme tiff, jpeg comme jpeg, etc. et sans rééchantillonnage). La mise en page n’a pas d’importance, je m’en fiche si l’image source se trouve sur la page.

J’utilise python 2.7 mais je peux utiliser 3.x si nécessaire.

86voto

kateryna Points 181

Vous pouvez utiliser le module PyMuPDF. Cela génère toutes les images sous forme de fichiers .png, mais fonctionne hors de la boîte et est rapide.

voir ici pour plus de ressources

51voto

sylvain Points 611

En Python avec les bibliothèques PyPDF2 et Pillow, c’est simple:

33voto

Ned Batchelder Points 128913

Souvent, dans un PDF, l’image est simplement stockée telle quelle. Par exemple, un PDF avec un jpg inséré aura une plage d’octets quelque part au milieu qui, une fois extrait, est un fichier jpg valide. Vous pouvez l’utiliser pour extraire très simplement des plages d’octets du PDF. J’ai écrit à ce sujet il y a quelque temps, avec un exemple de code: Extraction de JPG à partir de PDF.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X