Extraction du code de la photo du t-shirt via OCR

Question

Extraction du code de la photo du t-shirt via OCR

Demandé el 10 de Mars, 2010: Quand la question a-t-elle été
2860 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Récemment, j'ai vu quelqu'un avec un T-shirt avec certains Perl code sur le dos. J'ai pris une photo d'elle et recadrées le code:

alt text

Ensuite, j'ai essayé d'extraire le code de l'image via OCR, j'ai donc installé Tesseract OCR et les liaisons Python pour elle, pytesser.

Pytesser ne fonctionne que sur des images au format TIFF, donc j'ai converti l'image dans Gimp et entré le code suivant (Ubuntu 9.10):

>>> from pytesser import *
>>> image = Image.open('code.tif')
>>> print image_to_string(image)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "pytesser.py", line 30, in image_to_string
    util.image_to_scratch(im, scratch_image_name)
  File "util.py", line 7, in image_to_scratch
    im.save(scratch_image_name, dpi=(200,200))
  File "/usr/lib/python2.6/dist-packages/PIL/Image.py", line 1406, in save
    save_handler(self, fp, filename)
  File "/usr/lib/python2.6/dist-packages/PIL/BmpImagePlugin.py", line 197, in _save
    raise IOError("cannot write mode %s as BMP" % im.mode)
IOError: cannot write mode RGBA as BMP
>>> r,g,b,a = image.split()
>>> img = Image.merge("RGB", (r,g,b))
>>> print image_to_string(img)
Tesseract Open Source OCR Engine

     éi     _   l_` _ t  
  '   ‘" fY`  
  {  W       IKQW
  ·  __·_  ‘ ·-»·      
       :W   Z  
  ··  I  A n   1   
           ;f        
     `    `      
`T     .' V   _ ‘  
I  {Z.; » ;,. , ;  y i-   4 : %:,,    
      `· »    V; ` ?    
‘,-·.    
H***li¥v·•·}I§¢   ` _  »¢is5#__·¤G$++}§;"»‘7·
  71   '    Q  {  NH IQ
  ytéggygi {     ;g¤qg;gm·;,g(g,,3) {3;;+-
   § {Jf**$d$ }‘$p•¢L#d¤ Sc}
  »   i `  i A1:

C'est clairement le charabia qui sort du moteur d'OCR. Donc, ma question est:

Que dois-je faire pour obtenir de meilleurs résultats de l'OCR de Tesseract?
Ou, quelqu'un d'autre avez la chance de mieux extraire le code de l'image ci-dessus d'une autre manière?

Demandé el 10 de Mars, 2010 par BioGeek

Answer 1

5 Réponses

Answer 2

40voto

ЯegDwight Points 10668

Vous pouvez probablement taper plus rapidement que vous ne pouvez nettoyer les images et installer les moteurs d'OCR:

 #!/usr/bin/perl
(my$d=q[AA                GTCAGTTCCT
  CGCTATGTA                 ACACACACCA
    TTTGTGAGT                ATGTAACATA
      CTCGCTGGC              TATGTCAGAC
        AGATTGATC          GATCGATAGA
          ATGATAGATC     GAACGAGTGA
            TAGATAGAGT GATAGATAGA
              GAGAGA GATAGAACGA
                TC GATAGAGAGA
                 TAGATAGACA G
               ATCGAGAGAC AGATA
             GAACGACAGA TAGATAGAT
           TGAGTGATAG    ACTGAGAGAT
         AGATAGATTG        ATAGATAGAT
       AGATAGATAG           ACTGATAGAT
     AGAGTGATAG             ATAGAATGAG
   AGATAGACAG               ACAGACAGAT
  AGATAGACAG               AGAGACAGAT
  TGATAGATAG             ATAGATAGAT
  TGATAGATAG           AATGATAGAT
   AGATTGAGTG        ACAGATCGAT
     AGAACCTTTCT   CAGTAACAGT
       CTTTCTCGC TGGCTTGCTT
         TCTAA CAACCTTACT
           G ACTGCCTTTC
           TGAGATAGAT CGA
         TAGATAGATA GACAGAC
       AGATAGATAG  ATAGAATGAC
     AGACAGAGAG      ACAGAATGAT
   CGAGAGACAG          ATAGATAGAT
  AGAATGATAG             ACAGATAGAC
  AGATAGATAG               ACAGACAGAT
  AGACAGACTG                 ATAGATAGAT
   AGATAGATAG                 AATGACAGAT
     CGATTGAATG               ACAGATAGAT
       CGACAGATAG             ATAGACAGAT
         AGAGTGATAG          ATTGATCGAC
           TGATTGATAG      ACTGATTGAT
             AGACAGATAG  AGTGACAGAT
               CGACAGA TAGATAGATA
                 GATA GATAGATAG
                    ATAGACAGA G
                  AGATAGATAG ACA
                GTCGCAAGTTC GCTCACA
])=~s/\s+//g;%a=map{chr $_=>$i++}65,84,67,
71;$p=join$;,keys%a;while($d=~/([$p]{4})/g
){next if$j++%96>=16;$c=0;for$d(0..3){$c+=
$a{substr($1,$d,1)}*(4**$d)}$perl.=chr $c}
             eval $perl;

Edit: faute de frappe.

Répondu el 10 de Mars, 2010 par ЯegDwight (10668 Points )

Answer 3

15voto

Joe Koberg Points 9627

le pré-traitement donnera certainement une image plus exploitable.

Par exemple, voici le résultat des filtres "Niveaux", "Différence de Gaussiens" et "Niveaux" de Gimp sur l'image.

texte alternatif

Répondu el 10 de Mars, 2010 par Joe Koberg (9627 Points )

Answer 4

8voto

dtmilano Points 26472

Quelques petites fautes de frappe dans le code RedDwight.

 #!/usr/bin/perl
(my $d=q[AA                GTCAGTTCCT
  CGCTATGTA                 ACACACACCA
    TTTGTGAGT                ATGTAACATA
      CTCGCTGGC              TATGTCAGAC
        AGATTGATC          GATCGATAGA
          ATGATAGATC     GAACGAGTGA
            TAGATAGAGT GATAGATAGA
              GAGAGA GATAGAACGA
                TC GATAGAGAGA
                 TAGATAGACA G
               ATCGAGAGAC AGATA
             GAACGACAGA TAGATAGAT
           TGAGTGATAG    ACTGAGAGAT
         AGATAGATTG        ATAGATAGAT
       AGATAGATAG           ACTGATAGAT
     AGAGTGATAG             ATAGAATGAG
   AGATAGACAG               ACAGACAGAT
  AGATAGACAG               AGAGACAGAT
  TGATAGATAG             ATAGATAGAT
  TGATAGATAG           AATGATAGAT
   AGATTGAGTG        ACAGATCGAT
     AGAACCTTTCT   CAGTAACAGT
       CTTTCTCGC TGGCTTGCTT
         TCTAA CAACCTTACT
           G ACTGCCTTTC
           TGAGATAGAT CGA
         TAGATAGATA GACAGAC
       AGATAGATAG  ATAGAATGAC
     AGACAGAGAG      ACAGAATGAT
   CGAGAGACAG          ATAGATAGAT
  AGAATGATAG             ACAGATAGAC
  AGATAGATAG               ACAGACAGAT
  AGACAGACTG                 ATAGATAGAT
   AGATAGATAG                 AATGACAGAT
     CGATTGAATG               ACAGATAGAT
       CGACAGATAG             ATAGACAGAT
         AGAGTGATAG          ATTGATCGAC
           TGATTGATAG      ACTGATTGAT
             AGACAGATAG  AGTGACAGAT
               CGACAGA TAGATAGATA
                 GATA GATAGATAG
                    ATAGACAGA G
                  AGATAGATAG ACA
                GTCGCAAGTTC GCTCACA
])=~s/\s+//g;%a=map{chr $_=>$i++}65,84,67,
71;$p=join$;,keys%a;while($d=~/([$p]{4})/g
){next if$j++%96>=16;$c=0;for$d(0..3){$c+=
$a{substr($1,$d,1)}*(4**$d)}$perl.=chr $c}
             eval $perl;

que lorsqu'il est exécuté produit:

 Just another genome hacker.

Répondu el 10 de Mars, 2010 par dtmilano (26472 Points )

Answer 5

7voto

kikito Points 23229

Si j'étais vous, je commencerais par nettoyer l'image autant que possible en utilisant un programme de manipulation d'images (GIMP, par exemple) afin que l'entrée pour l'OCR soit plus facilement compréhensible.

Si possible, essayez de créer une image en noir et blanc uniquement.

Répondu el 10 de Mars, 2010 par kikito (23229 Points )

Answer 6

5voto

Chris Moutray Points 7936

Hmm peut-être avez-vous besoin de traiter l'image, c'est-à-dire de la mettre à l'aide de filtres tels que la détection des contours, l'emboss / graver ou un filtre anti-bruit ...

Répondu el 10 de Mars, 2010 par Chris Moutray (7936 Points )

Extraction du code de la photo du t-shirt via OCR

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Extraction du code de la photo du t-shirt via OCR

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: