J'essaie donc de faire un script Python qui télécharge les webcomics et les met dans un dossier sur mon bureau. J'ai trouvé quelques programmes similaires sur ici qui font quelque chose de similaire, mais rien de tout à fait comme ce dont j'ai besoin. Celui que j'ai trouvé le plus similaire est juste ici ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). J'ai essayé d'utiliser ce code :
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
J'ai ensuite cherché dans mon ordinateur le fichier "00000001.jpg", mais je n'ai trouvé que l'image en cache de celui-ci. Je ne suis même pas sûr qu'il ait enregistré le fichier sur mon ordinateur. Une fois que j'ai compris comment obtenir le téléchargement du fichier, je pense savoir comment gérer le reste. Essentiellement, il suffit d'utiliser une boucle for et de diviser la chaîne au niveau de '00000000'.'jpg' et d'incrémenter le '00000000' jusqu'au plus grand nombre, que je devrais déterminer d'une manière ou d'une autre. Avez-vous des recommandations sur la meilleure façon de procéder ou sur la manière de télécharger le fichier correctement ?
Merci !
EDIT 15/06/10
Voici le script terminé, il enregistre les fichiers dans le répertoire de votre choix. Pour une raison étrange, les fichiers n'étaient pas téléchargés et ils l'ont juste fait. Toute suggestion sur la façon de le nettoyer serait très appréciée. Je travaille actuellement sur la façon de déterminer le nombre de bandes dessinées existant sur le site afin de pouvoir récupérer la dernière, plutôt que de faire quitter le programme après un certain nombre d'exceptions.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
0 votes
Ok, je les ai tous téléchargés ! Maintenant, je suis coincé avec une solution très inélégante pour déterminer combien de BD sont en ligne... En gros, je lance le programme jusqu'à un nombre que je sais supérieur au nombre de BD et je lance une exception pour qu'elle apparaisse lorsqu'une BD n'existe pas, et lorsque l'exception apparaît plus de deux fois (puisque je ne pense pas qu'il manque plus de deux BD), le programme s'arrête, pensant qu'il n'y a plus de BD à télécharger. Comme je n'ai pas accès au site web, existe-t-il un meilleur moyen de déterminer le nombre de fichiers présents sur le site ? Je vais poster mon code dans une seconde.
0 votes
creativebe.com/icombiner/merge-jpg.html J'ai utilisé ce programme pour fusionner tous les fichiers .jpg en un seul PDF. Ça marche super bien, et c'est gratuit !
10 votes
Envisagez de poster votre solution en tant que réponse, et de la retirer de la question. Les messages de questions servent à poser des questions, les messages de réponses à donner des réponses :-)
0 votes
Pourquoi ce thème est-il associé à
beautifulsoup
? Ce message apparaît dans la liste des meilleursbeautifulsoup
question0 votes
Si quelqu'un le cherche encore... il est maintenant dans urllib.request.URLopener()
1 votes
@P0W J'ai enlevé le tag "discuté".
0 votes
La vraie réponse ici est d'utiliser des requêtes.