Raclage de sites Web avec Python

Question

Raclage de sites Web avec Python

Demandé el 17 de Janvier, 2010: Quand la question a-t-elle été
115262 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'aimerais récupérer les heures quotidiennes de lever et de coucher du soleil sur un site web. Est-il possible de gratter du contenu web avec Python ? Quels sont les modules utilisés ? Y a-t-il un tutoriel disponible ?

Demandé el 17 de Janvier, 2010 par Nimbuz

5 votes

Python dispose de plusieurs options pour le scraping web. J'ai énuméré certaines de ces options aquí en réponse à une question similaire.

Commenté el 17 de Janvier, 2010 par filippo

0 votes

Pourquoi ne pas simplement utiliser l'analyseur HTML intégré à la bibliothèque standard de Python ? Certainement pour une tâche aussi simple et peu fréquente (juste une fois par jour), je ne vois guère de raison de chercher d'autres outils. docs.python.org/2.7/library/htmlparser.html

Commenté el 20 de Juillet, 2015 par ArtOfWarfare

0 votes

J'espère que cet article pourra être utile à quelqu'un à ce sujet. Un bon tutoriel pour un débutant. samranga.blogspot.com/2015/08/web-scraping-beginner-python.html Il utilise la belle bibliothèque python de soup pour le scraping web avec python.

Commenté el 25 de Août, 2015 par Samitha Chathuranga

Answer 1

5 Réponses

Answer 2

194voto

Utilisateur non enregistré Points 0

Utilisez urllib2 en combinaison avec le brillant BelleSoupe bibliothèque :

import urllib2
from BeautifulSoup import BeautifulSoup
# or if you're using BeautifulSoup4:
# from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://example.com').read())

for row in soup('table', {'class': 'spad'})[0].tbody('tr'):
    tds = row('td')
    print tds[0].string, tds[1].string
    # will print date and sunrise

Répondu el 17 de Janvier, 2010 par Utilisateur non enregistré (0 Points )

Answer 3

63voto

Sjaak Trekhaak Points 1988

Je recommande vraiment Scrapy.

Citation d'une réponse effacée :

Le crawling de Scrapy est plus rapide que celui de mechanize car il utilise des opérations asynchrones (en plus de Twisted).

Scrapy dispose d'une prise en charge meilleure et plus rapide de l'analyse syntaxique (x)html sur la base de libxml2.

Scrapy est un framework mature avec unicode complet, gère les redirections, les réponses gzippées, les encodages bizarres, le cache http intégré, etc.

Une fois que vous êtes dans Scrapy, vous pouvez écrire un spider en moins de 5 minutes qui télécharge des images, crée des vignettes et exporte les données extraites directement vers csv ou json.

Répondu el 22 de Décembre, 2011 par Sjaak Trekhaak (1988 Points )

14 votes

Je n'avais pas remarqué que cette question datait déjà de deux ans, mais je pense toujours que Scrapy devrait être nommé ici au cas où quelqu'un d'autre aurait la même question.

Commenté el 22 de Décembre, 2011 par Sjaak Trekhaak

4 votes

Scrapy est un framework, il est donc horrible et pense qu'il est plus important que votre projet. C'est un framework à cause des horribles limitations (inutiles) de Twisted.

Commenté el 17 de Août, 2012 par user1244215

4 votes

@user1244215 : C'est un framework parce que les frameworks sont sympas. Si vous ne voulez pas l'utiliser comme un framework, il n'y a rien qui vous empêche de mettre tout votre code dans un seul fichier.

Commenté el 3 de Septembre, 2013 par Blender

Afficher 1 autres commentaires

Answer 4

17voto

hoju Points 7182

J'ai rassemblé des scripts de mon travail de scraping web dans ce document bibliothèque de bit-bucket .

Exemple script pour votre cas :

from webscraping import download, xpath
D = download.Download()

html = D.get('http://example.com')
for row in xpath.search(html, '//table[@class="spad"]/tbody/tr'):
    cols = xpath.search(row, '/td')
    print 'Sunrise: %s, Sunset: %s' % (cols[1], cols[2])

Sortie :

Sunrise: 08:39, Sunset: 16:08
Sunrise: 08:39, Sunset: 16:09
Sunrise: 08:39, Sunset: 16:10
Sunrise: 08:40, Sunset: 16:10
Sunrise: 08:40, Sunset: 16:11
Sunrise: 08:40, Sunset: 16:12
Sunrise: 08:40, Sunset: 16:13

Répondu el 22 de Décembre, 2011 par hoju (7182 Points )

Answer 5

11voto

scottmrogowski Points 461

Je vous conseille vivement de consulter pyquery . Il utilise une syntaxe semblable à celle de Jquery (c'est-à-dire semblable à celle de CSS), ce qui rend les choses vraiment faciles pour ceux qui viennent de ce milieu.

Dans votre cas, ce serait quelque chose comme :

from pyquery import *

html = PyQuery(url='http://www.example.com/')
trs = html('table.spad tbody tr')

for tr in trs:
  tds = tr.getchildren()
  print tds[1].text, tds[2].text

Sortie :

5:16 AM 9:28 PM
5:15 AM 9:30 PM
5:13 AM 9:31 PM
5:12 AM 9:33 PM
5:11 AM 9:34 PM
5:10 AM 9:35 PM
5:09 AM 9:37 PM

Répondu el 21 de Mai, 2013 par scottmrogowski (461 Points )

Answer 6

7voto

danben Points 35312

Vous pouvez utiliser urllib2 pour faire les requêtes HTTP, et ensuite vous aurez du contenu web.

Vous pouvez l'obtenir comme ça :

import urllib2
response = urllib2.urlopen('http://example.com')
html = response.read()

Une belle soupe est un analyseur HTML en python qui est supposé être bon pour le screen scraping.

En particulier, aquí est leur tutoriel sur l'analyse d'un document HTML.

Bonne chance !

Répondu el 17 de Janvier, 2010 par danben (35312 Points )

0 votes

Ce serait une bonne idée de fixer un maximum d'octets lus. response.read(100000000) ou quelque chose comme ça pour que les URL des ISO ne remplissent pas votre RAM. Bonne navigation.

Commenté el 21 de Mars, 2015 par andrew pate

Raclage de sites Web avec Python

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Raclage de sites Web avec Python

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: