Je suis à la recherche d'une bibliothèque PDF qui me permettra d'extraire le texte d'un document PDF. J'ai regardé PyPDF, et il peut extraire le texte d'un document PDF très bien. Le problème est que si le document contient des tableaux, le texte des tableaux est extrait en ligne avec le reste du texte du document. Cela peut être problématique car cela produit des sections de texte qui ne sont pas utiles et qui ont l'air confuses (par exemple, beaucoup de chiffres mélangés ensemble).
Je voudrais extraire le texte d'un document PDF, à l'exclusion de tout tableau et formatage spécial. Existe-t-il une bibliothèque qui fait cela ?