3 votes

solution automatique de numérisation et d'ocr pour les gros volumes ?

Nous avons besoin d'une solution de numérisation et d'ocr à haut volume

il s'agit de numériser environ 4000 documents par jour, et de les sauvegarder en pdf avec ocr (texte caché)...

la solution devrait permettre aux opérateurs de scanner un document et d'enregistrer automatiquement les fichiers sur une ressource réseau spécifique, pour qu'ils soient pris en charge par une application qui les télécharge vers une base de données...

nous évaluons une solution d'entreprise de kofax http://www.kofax.com/

Quels sont les autres produits dont vous avez connaissance ?

Avez-vous une expérience avec des exigences similaires ?

une solution open source (ou au moins accessible) ?

com, support de l'api activex ?

4voto

Mark Points 630

Il existe de nombreux fournisseurs de produits de numérisation qui peuvent faire ce que vous voulez - numériser, indexer, générer un PDF avec une superposition d'OCR (personnellement, je préfère une superposition d'OCR dans un PDF). Ces exigences sont assez triviales pour un fournisseur spécialisé dans la numérisation. Pour ne citer que quelques autres fournisseurs/produits en plus de Kofax :

  • Le produit InputAccel d'EMC/Captiva
  • Datacap
  • eCopy ShareScan
  • Verity/Cardiff/Autonomie

De nombreuses solutions de gestion de documents disposent également d'interfaces de numérisation intégrées, mais elles ne sont généralement pas aussi fonctionnelles que les produits de capture spécialisés. Presque toutes ces solutions prennent en charge l'API COM/ActiveX. Je ne connais pas de solutions open source pour la numérisation, mais je n'ai jamais vraiment cherché à en trouver.

La plupart des fournisseurs de logiciels de numérisation utilisent une licence de "volume" ou de "capacité". Généralement, le volume est renouvelé à la fin de la période (c'est-à-dire 1 million de pages par an - renouvellement automatique chaque année sans coût supplémentaire). Ainsi, vous ne payez pas strictement "à la page", c'est-à-dire que si vous achetez une capacité de 1 million d'images par an et que vous ne numérisez que 500 000 pages, vous n'êtes pas remboursé. Il est possible, mais beaucoup moins courant, d'avoir un volume unique qui ne se renouvelle pas automatiquement et qui, lorsqu'il est épuisé, vous oblige à acheter un volume supplémentaire. La plupart des fournisseurs abandonnent les dongles pour contrôler le volume et optent pour des licences logicielles.

Une remarque à propos de Kofax :

Kofax a toujours été vendu par l'intermédiaire d'un système de revendeurs à valeur ajoutée, de sorte que la qualité des différentes mises en œuvre peut varier considérablement. En outre, Kofax est hautement personnalisable et se présente sous différentes formes avec de nombreux modules complémentaires, de sorte que le système Kofax d'un client peut être très différent de celui d'autres clients.

Kofax est utilisé dans des systèmes d'entreprise pour la numérisation et la capture automatique de millions de documents par an. Il détient une part importante du marché de la numérisation de documents. Non, je ne suis pas un fanboy de Kofax, sinon je n'aurais pas mentionné les produits concurrents, mais je les connais très bien. Comme les autres produits sur le marché, il a des forces et des faiblesses. Je comprends que Michael ne faisait que relayer ce qu'il avait entendu, mais je ne pouvais pas laisser passer cette généralisation sans commentaire. Dire qu'un produit qui détient une part de marché importante n'est "pas utile ou convivial" pour la numérisation revient à dire que "Windows n'est pas un système d'exploitation utile pour les serveurs". C'est une généralisation trop large.

Santé,

Brian

0voto

Michael Todd Points 9384

Kofax n'est pas très utile ni très convivial (d'après mes homologues travaillant avec le comté). Il est adéquat, mais pas bon.

Nous utilisons une solution tout Adobe. Les détails suivront (je ne suis pas en charge de la gestion de ce domaine, je dois donc rassembler quelques informations pour vous).

Mise à jour : Nous utilisons

Adobe Acrobat Capture 3.0
Deux RICOH Color Scanner IS760D avec ADF
Acrobat Standard ou Professional (selon l'utilisateur)

Nous disposons d'une vaste bibliothèque (près de 6 000 documents) et de centaines de milliers de pages numérisées. L'ordinateur qui effectue la numérisation est équipé d'un dongle que nous achetons (250 000 numérisations jusqu'à ce que nous devions acheter une "mise à jour") ; je n'ai pas le coût disponible puisque le monsieur qui s'en occupe est rentré chez lui pour la journée, mais je me souviens qu'il était de l'ordre de quelques microcents par page.

Nous numérisons souvent des documents de plusieurs centaines de pages qui doivent être traités le jour même et nous n'avons aucun problème à accomplir cette tâche.

Un lien vers certains de nos efforts (un front-end web, ou une sorte de bibliothèque) est disponible à l'adresse suivante http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx si vous souhaitez vous faire une idée de ce que nous avons fait.

Pour ce qui est de placer ces PDF dans une base de données, il serait assez facile de créer une application (peut-être un service) pour surveiller un répertoire et saisir chaque PDF qui y apparaît après l'exécution de Capture, copier les informations dans la base de données, puis les supprimer ou les déplacer vers leur nouveau lieu de résidence.

0voto

PSIGEN est une excellente alternative à Kofax, il est doté de nombreuses fonctionnalités et son prix est raisonnable.

Kofax Alternative Scanning and Capture Application (application de numérisation et de capture alternative)

0voto

Brtrnd Points 45

Quel niveau de qualité souhaitez-vous pour votre ROC ? Avez-vous besoin que tout le contenu soit lisible par l'homme ou avez-vous seulement besoin d'une partie du contenu pour pouvoir classer le document (numéro de client ; type de document ; codes-barres ...).

http://www.irislink.com est une entreprise qui développe des solutions de numérisation et de classification de documents.
Leur logiciel est inclus dans plusieurs marques de multifonctions et de scanners grand public. L'entreprise est plus orientée vers l'extraction d'informations et leur utilisation (par exemple, l'introduction automatique de factures dans un logiciel de comptabilité).
D'après mon expérience, il gère mieux le texte OCR (correction des mots, etc.) que Kofax (nous utilisons les deux), bien que Kofax puisse être développé davantage pour atteindre un meilleur niveau (ce qui implique plus de travail d'installation et plus de maintenance).

Les deux logiciels sont vraiment utiles pour la façon dont ils traitent les documents.
Si votre seul souhait est de numériser les documents, de les convertir au format PDF et de les enregistrer sur un réseau partagé, vous pouvez vous contenter d'acheter un bon scanner et d'utiliser le logiciel fourni.
Vous pouvez également consulter le projet tesseract ; il s'agit d'un moteur d'ocr open source qui donne de bons résultats.

0voto

Jose Points 31

Vous pouvez essayer ChronoScan, qui dispose d'un OCR gratuit grâce à tesseract et d'options de reconnaissance de formulaires, et qui est gratuit pour une utilisation non commerciale.

Le logiciel est en phase de développement avancé et vous disposez d'un forum pour discuter directement avec les développeurs.

http://www.chronoscan.org Formulaires de lecture vidéo courts

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X