4 votes

Extraire les tableaux HTML d'une URL donnée en CSV

Je cherche un outil qui peut être exécuté sur la ligne de commande comme ceci :

tablescrape 'http://someURL.foo.com' [n]

Si n n'est pas spécifié et qu'il y a plus d'un tableau HTML sur la page, il doit les résumer (ligne d'en-tête, nombre total de lignes) dans une liste numérotée. Si n est spécifié ou s'il n'y a qu'une seule table, il doit analyser la table et la renvoyer à la sortie en tant que CSV ou TSV.

Caractéristiques supplémentaires potentielles :

  • Pour être vraiment sophistiqué, vous pourriez analyser un tableau dans un autre tableau, mais pour mes besoins - récupérer des données à partir de pages wikipedia et autres - c'est trop.
  • Une option pour ascire tout unicode.
  • Une option pour appliquer une substitution arbitraire de regex pour corriger les bizarreries dans la table analysée.

Qu'est-ce que vous utiliseriez pour bricoler quelque chose comme ça ? Le module Perl HTML::TableExtract peut être un bon point de départ et peut même gérer le cas des tables imbriquées. Cela pourrait aussi être un script Python assez court avec BelleSoupe . Est-ce que YQL serait-il un bon point de départ ? Ou, idéalement, avez-vous écrit quelque chose de similaire et avez-vous un pointeur dessus ? (Je ne suis sûrement pas la première personne à en avoir besoin).

Questions connexes :

13voto

dreeves Points 9130

C'est ma première tentative :

http://yootles.com/outbox/tablescrape.py

Il a besoin d'un peu plus de travail, comme une meilleure ascification, mais il est utilisable. Par exemple, si vous le pointez sur ceci liste des records olympiques :

./tablescrape http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics

il vous dit qu'il y a 8 tableaux disponibles et il est clair que les 2ème et 3ème (records hommes et femmes) sont ceux que vous voulez :

1: [  1 cols,   1 rows] Contents 1 Men's rec
2: [  7 cols,  25 rows] Event | Record | Name | Nation | Games | Date | Ref
3: [  7 cols,  24 rows] Event | Record | Name | Nation | Games | Date | Ref
[...]

Puis, si vous l'exécutez à nouveau, en demandant la 2e table,

./tablescrape http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics 2

Vous obtenez un tableau de données en clair raisonnable :

100 metres | 9.69 | Usain Bolt | Jamaica (JAM) | 2008 Beijing | August 16, 2008 | [ 8 ]
200 metres | 19.30 | Usain Bolt | Jamaica (JAM) | 2008 Beijing | August 20, 2008 | [ 8 ]
400 metres | 43.49 | Michael Johnson | United States (USA) | 1996 Atlanta | July 29, 1996 | [ 9 ]
800 metres | 1:42.58 | Vebjørn Rodal | Norway (NOR) | 1996 Atlanta | July 31, 1996 | [ 10 ]
1,500 metres | 3:32.07 | Noah Ngeny | Kenya (KEN) | 2000 Sydney | September 29, 2000 | [ 11 ]
5,000 metres | 12:57.82 | Kenenisa Bekele | Ethiopia (ETH) | 2008 Beijing | August 23, 2008 | [ 12 ]
10,000 metres | 27:01.17 | Kenenisa Bekele | Ethiopia (ETH) | 2008 Beijing | August 17, 2008 | [ 13 ]
Marathon | 2:06:32 | Samuel Wanjiru | Kenya (KEN) | 2008 Beijing | August 24, 2008 | [ 14 ]
[...]

1voto

edA-qa mort-ora-y Points 8413

Utilisation de TestPlan J'ai produit un script grossier. Compte tenu de la complexité des tableaux web, il faudra probablement l'adapter à tous les sites.

Ce premier script liste les tableaux de la page :

# A simple table scraping example. It lists the tables on a page
#
# Cmds.Site = the URL to scan
default %Cmds.Site% http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics
GotoURL %Cmds.Site%

set %Count% 1
foreach %Table% in (response //table)
    Notice Table #%Count%
    # find a suitable name, look back for a header
    set %Check% ./preceding::*[name()='h1' or name()='h2' or name()='h3'][1]
    if checkIn %Table% %Check%
        Notice (selectIn %Table% %Check%)
    end

    set %Count% as binOp %Count% + 1
end

Le deuxième script extrait ensuite les données d'un tableau dans un fichier CSV.

# Generic extract of contents of a table in a webpage
# Use list_tables to get the list of table and indexes
#
# Cmds.Site = the URL to scan
# Cmds.Index = Table index to scan
default %Cmds.Site% http://en.wikipedia.org/wiki/List_of_Olympic_records_in_athletics
default %Cmds.Index% 2

GotoURL %Cmds.Site%

set %Headers% //table[%Cmds.Index%]/tbody/tr[1]
set %Rows% //table[%Cmds.Index%]/tbody/tr[position()>1]

# Get an cleanup the header fields 
set %Fields% withvector
end
foreach %Header% in (response %Headers%/*)
    putin %Fields% (trim %Header%)
end
Notice %Fields%

# Create an output CSV
call unit.file.CreateDataFile with
    %Name% %This:Dir%/extract_table.csv
    %Format% csv
    %Fields% %Fields%
end
set %DataFile% %Return:Value%

# Now extract each row
foreach %Row% in (response %Rows%)
    set %Record% withvector
    end
    foreach %Cell% in (selectIn %Row% ./td)
        putin %Record% (trim %Cell%)
    end

    call unit.file.WriteDataFile with
        %DataFile% %DataFile%
        %Record% %Record%
    end
end

call unit.file.CloseDataFile with
    %DataFile% %DataFile%
end

Mon fichier CSV ressemble à ce qui suit. Notez que wikipedia a des informations extraites dans chaque cellule. Il existe de nombreuses façons de s'en débarrasser, mais pas de façon générique.

Shot put,22.47 m,"Timmermann, UlfUlf Timmermann",East Germany (GDR),1988 1988 Seoul,"01988-09-23 September 23, 1988",[25]
Discus throw,69.89 m,"Alekna, VirgilijusVirgilijus Alekna",Lithuania (LTU),2004 2004 Athens,"02004-08-23 August 23, 2004",[26]
Hammer throw,84.80 m,"Litvinov, SergeySergey Litvinov",Soviet Union (URS),1988 1988 Seoul,"01988-09-26 September 26, 1988",[27]
Javelin throw,90.57 m,"Thorkildsen, AndreasAndreas Thorkildsen",Norway (NOR),2008 2008 Beijing,"02008-08-23 August 23, 2008",[28]

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X