53 votes

Extraire un texte pdf dans l’objectif C

Jusqu'à ce point, je n'avais pas trouvé une solution qui fonctionne bien pour extraire du texte à partir d'un fichier pdf en Objective-C pour une utilisation sur l'iPhone. J'ai trouvé un certain standard de code C et l'a modifié pour le travail, et je pensais m'offrir ici, comme jusqu'à présent, j'ai utilisé stackoverflow un peu, mais n'a jamais donné de retour. Vous pouvez l'obtenir ici: https://github.com/zachron/pdfiphone

Il prend comme entrée le chemin d'accès du fichier pdf et renvoie un nsstring du texte dans le document pdf. Je n'ai pas écrit la grande majorité de ce type, mais je ne l'ai modifier pour qu'il fonctionne avec l'iPhone et l'Objective C. Vous avez besoin d'inclure la bibliothèque Zlib dans votre projet (libz.dylib sur l'iPhone) si quelqu'un prend ce qui la rend plus impressionnant, c'est de bons moments.

5voto

Ori Points 2209

Gardez à l'esprit que cela ne fonctionne que pour l'extraction de texte qui est stocké en tant que tel dans le fichier PDF. Il ne sera pas OCR des documents numérisés. Si vous voulez le faire, il y a la possibilité d'utiliser Tesseract, Google est robuste et les logiciels libres le moteur d'OCR. Il compile sur l'iPhone: voir Nolan Brown Tesseract-iPhone-Démo pour un exemple. L'imagerie de la bibliothèque Imagemagick compile également sur l'iPhone, et il vous permettra de convertir des fichiers PDF au format TIFF, qui Tesseract accepte comme entrée.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X