La bibliothèque pdf2image peut être utilisée.
Vous pouvez l'installer simplement en utilisant,
pip install pdf2image
Une fois installé, vous pouvez utiliser le code suivant pour obtenir des images.
from pdf2image import convert_from_path
pages = convert_from_path('pdf_file', 500)
Enregistrement des pages au format jpeg
for page in pages:
page.save('out.jpg', 'JPEG')
Editer : le repo Github pdf2image mentionne également qu'il utilise pdftoppm
et qu'il nécessite d'autres installations :
pdftoppm est le logiciel qui fait la magie. Il est distribué dans le cadre d'un paquetage plus important appelé poppler . Les utilisateurs de Windows devront installer poppler pour Windows . Les utilisateurs de Mac devront installer poppler pour Mac . Les utilisateurs de Linux auront pdftoppm pré-installé avec la distribution (Testé sur Ubuntu et Archlinux) si ce n'est pas le cas, exécutez sudo apt install poppler-utils
.
Vous pouvez installer la dernière version sous Windows en utilisant anaconda en faisant :
conda install -c conda-forge poppler
note : Les versions Windows jusqu'à 0.67 sont disponibles à l'adresse suivante http://blog.alivate.com.au/poppler-Windows/ mais notez que 0,68 était publié en août 2018 Vous ne bénéficierez donc pas des dernières fonctionnalités ni des corrections de bugs.
2 votes
Selon l'image, il peut être préférable d'extraire en png. C'est le cas si la page contient principalement du texte.