Je veux extraire l'URL à partir des balises d'ancrage d'un fichier html. Cela doit être fait dans BASH avec SED / AWK. Pas de perl s'il vous plait.
Quelle est la manière la plus simple de faire ça?
Je veux extraire l'URL à partir des balises d'ancrage d'un fichier html. Cela doit être fait dans BASH avec SED / AWK. Pas de perl s'il vous plait.
Quelle est la manière la plus simple de faire ça?
Vous l'avez demandé:
$ wget -O - http://stackoverflow.com | \
grep -o '<a href=['"'"'"][^"'"'"']*['"'"'"]' | \
sed -e 's/^<a href=["'"'"']//' -e 's/["'"'"']$//'
Il s’agit d’un outil grossier. Tous les avertissements habituels concernant l’essai d’analyser HTML avec des expressions régulières s’appliquent.
Avec l' outil d'extraction de données Xidel - HTML / XML , vous pouvez le faire via:
$ xidel --extract "//a/@href" http://example.com/
Avec conversion en URL absolues:
$ xidel --extract "//a/concat(resolve-uri(@href, base-uri()))" http://example.com/
grep "<a href=" sourcepage.html
|sed "s/<a href/\\n<a href/g"
|sed 's/\"/\"><\/a>\n/2'
|grep href
|sort |uniq
Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.