Mode d'emploi wget
et récupérer tous les fichiers du site web ?
J'ai besoin de tous les fichiers sauf les fichiers de la page web comme HTML, PHP, ASP etc.
Mode d'emploi wget
et récupérer tous les fichiers du site web ?
J'ai besoin de tous les fichiers sauf les fichiers de la page web comme HTML, PHP, ASP etc.
Pour filtrer des extensions de fichiers spécifiques :
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
Ou, si vous préférez les noms d'options longues :
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
Cela fera un miroir du site, mais les fichiers sans jpg
ou pdf
sera automatiquement supprimée.
Si vous voulez simplement télécharger des fichiers sans architecture de répertoires entiers, vous pouvez utiliser -et option.
@izilotti Est-ce que le propriétaire du site peut savoir si vous avez téléchargé les fichiers de son site avec cette méthode ?
wget -m -p -E -k -K -np http://site/path/
page de manuel vous dira ce que font ces options.
wget
ne suivra que les liens, s'il n'y a pas de lien vers un fichier depuis la page d'index, alors wget
ne connaîtront pas son existence et ne le téléchargeront donc pas. Par exemple, il est utile que tous les fichiers soient liés à des pages web ou à des index de répertoires.
J'essayais de télécharger des fichiers zip liés à La page des thèmes d'Omeka - tâche assez similaire. Cela a fonctionné pour moi :
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
: n'accepte que les fichiers zip-r
: recurse-l 1
: un niveau de profondeur (c'est-à-dire, seulement les fichiers directement liés à cette page)-nd
: ne créez pas de structure de répertoire, téléchargez simplement tous les fichiers dans ce répertoire.Toutes les réponses avec -k
, -K
, -E
etc n'ont probablement pas vraiment compris la question, car celles concernant la réécriture des pages HTML pour en faire une structure locale, le renommage de .php
et ainsi de suite. Non pertinent.
Pour obtenir littéralement tous les fichiers sauf .html
etc :
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
Vous pouvez essayer :
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
Vous pouvez également ajouter :
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
pour accepter les extensions spécifiques, ou pour rejeter uniquement les extensions spécifiques :
-R html,htm,asp,php
ou pour exclure les zones spécifiques :
-X "search*,forum*"
Si les fichiers sont ignorés par les robots (par exemple, les moteurs de recherche), vous devez également ajouter : -e robots=off
Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.
0 votes
Même si vous voulez télécharger php, ce n'est pas possible en utilisant wget. Nous ne pouvons obtenir que du HTML brut en utilisant wget. Je suppose que vous connaissez la raison
1 votes
NB : Vérifiez toujours avec
wget --spider
d'abord, et toujours ajouter-w 1
(ou plus-w 5
) afin de ne pas inonder le serveur de l'autre personne.1 votes
Comment puis-je télécharger tous les fichiers pdf de cette page ? pualib.com/collection/pua-titres-a.html
1 votes
Stack Overflow est un site pour les questions de programmation et de développement. Cette question semble être hors sujet car elle ne concerne pas la programmation ou le développement. Voir Quels sont les sujets sur lesquels je peux poser des questions ici dans le centre d'aide. Peut-être Super utilisateur ou Unix & Linux Stack Exchange serait un meilleur endroit pour demander. Voir aussi Où puis-je poster des questions sur le Dev Ops ?