Meilleure façon d'extraire les URL d'une page HTML en utilisant sed ou awk uniquement

Question

Meilleure façon d'extraire les URL d'une page HTML en utilisant sed ou awk uniquement

Demandé el 10 de Décembre, 2009: Quand la question a-t-elle été
29207 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Je veux extraire l'URL à partir des balises d'ancrage d'un fichier html. Cela doit être fait dans BASH avec SED / AWK. Pas de perl s'il vous plait.

Quelle est la manière la plus simple de faire ça?

Demandé el 10 de Décembre, 2009 par codaddict

Answer 1

5 Réponses

Answer 2

59voto

Hardy Points 6274

Vous pouvez également faire quelque chose comme ceci (à condition que vous ayez installé Lynx):

 lynx -dump -listonly my.html

Répondu el 4 de Janvier, 2010 par Hardy (6274 Points )

Answer 3

40voto

Greg Bacon Points 50449

Vous l'avez demandé:

 $ wget -O - http://stackoverflow.com | \
  grep -o '<a href=['"'"'"][^"'"'"']*['"'"'"]' | \
  sed -e 's/^<a href=["'"'"']//' -e 's/["'"'"']$//'

Il s’agit d’un outil grossier. Tous les avertissements habituels concernant l’essai d’analyser HTML avec des expressions régulières s’appliquent.

Répondu el 17 de Décembre, 2009 par Greg Bacon (50449 Points )

Answer 4

16voto

Ingo Karkat Points 61399

Avec l' outil d'extraction de données Xidel - HTML / XML , vous pouvez le faire via:

 $ xidel --extract "//a/@href" http://example.com/

Avec conversion en URL absolues:

 $ xidel --extract "//a/concat(resolve-uri(@href, base-uri()))" http://example.com/

Répondu el 13 de Mars, 2013 par Ingo Karkat (61399 Points )

Answer 5

15voto

kerkael Points 51

grep "<a href=" sourcepage.html
  |sed "s/<a href/\\n<a href/g" 
  |sed 's/\"/\"><\/a>\n/2'
  |grep href
  |sort |uniq

La première grep cherche les lignes contenant des url. Vous pouvez ajouter plus d'éléments après si vous voulez voir uniquement sur les pages, donc pas de http, mais chemin d'accès relatif.
Le premier sed va ajouter un saut de ligne en face de chaque a href balise d'url avec le \n
La deuxième sed va raccourcir chaque url après le 2ème " dans la ligne en la remplaçant par la /une balise avec un saut de ligne Les deux sed va vous donner chaque url sur une seule ligne, mais il est des ordures, de sorte
La 2ème grep href nettoie le désordre
Le tri et uniq vais vous donner un exemple de chacun des url présentes dans le sourcepage.html

Répondu el 19 de Septembre, 2012 par kerkael (51 Points )

Answer 6

12voto

ghostdog74 Points 86060

Un exemple, puisque vous n'avez fourni aucun échantillon

 awk 'BEGIN{
RS="</a>"
IGNORECASE=1
}
{
  for(o=1;o<=NF;o++){
    if ( $o ~ /href/){
      gsub(/.*href=\042/,"",$o)
      gsub(/\042.*/,"",$o)
      print $(o)
    }
  }
}' index.html

Répondu el 10 de Décembre, 2009 par ghostdog74 (86060 Points )

Meilleure façon d'extraire les URL d'une page HTML en utilisant sed ou awk uniquement

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Meilleure façon d'extraire les URL d'une page HTML en utilisant sed ou awk uniquement

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: