(Python) socket.gaierror sur toutes les adresses...sauf http://www.reddit.com ?

Question

(Python) socket.gaierror sur toutes les adresses...sauf http://www.reddit.com ?

Demandé el 19 de Novembre, 2008: Quand la question a-t-elle été
3825 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis juste en train de jouer et j'essaie d'attraper des informations sur des sites web. Malheureusement, avec le code suivant :

import sys
import socket
import re
from urlparse import urlsplit

url = urlsplit(sys.argv[1])

sock = socket.socket()
sock.connect((url[0] + '://' + url[1],80))
path = url[2]
if not path:
    path = '/'

print path
sock.send('GET ' + path + ' HTTP/1.1\r\n'
    + 'User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/525.19 (KHTML, like Gecko) Chrome/0.3.154.9 Safari/525.19\r\n'
    + 'Accept: */*\r\n'
    + 'Accept-Language: en-US,en\r\n'
    + 'Accept-Charset: ISO-8859-1,*,utf-8\r\n'
    + 'Host: 68.33.143.182\r\n'
    + 'Connection: Keep-alive\r\n'
    + '\r\n')

Je reçois l'erreur suivante :

Traceback (dernier appel le plus récent) :
Fichier " D:\Development\Python\PyCrawler\PyCrawler.py ", ligne 10, dans sock.connect((url[0] + '://' + url[1],80)) Fichier "", ligne 1, in connect socket.gaierror : (11001, 'getaddrinfo failed')

La seule fois où je n'obtiens pas d'erreur est si l'url passée est http://www.reddit.com . Toutes les autres url que j'ai essayées donnent lieu à une erreur de type socket.gaierror. Quelqu'un peut-il expliquer cela ? Et éventuellement donner une solution ?

Demandé el 19 de Novembre, 2008 par The.Anti.9

Answer 1

5 Réponses

Answer 2

3voto

ddaa Points 19102

sock.connect((url[0] + '://' + url[1],80))

Ne faites pas cela, faites plutôt ceci :

sock.connect((url[1], 80))

connect s'attend à un nom d'hôte, pas à une URL.

En fait, vous devriez probablement utiliser quelque chose de plus haut niveau que les sockets pour faire du HTTP. Peut-être httplib .

Répondu el 19 de Novembre, 2008 par ddaa (19102 Points )

Answer 3

3voto

Ali Afshar Points 22836

S'il vous plaît, s'il vous plaît, s'il vous plaît, s'il vous plaît, ne faites pas ça.

urllib et urllib2 sont vos amis.

Lire le manuel "manquant" d'urllib2 si vous avez des problèmes avec elle.

Répondu el 20 de Novembre, 2008 par Ali Afshar (22836 Points )

Answer 4

2voto

Utilisateur non enregistré Points 0

Avez-vous déjà modifié votre Fichier d'hôtes ? S'il y a une entrée pour Reddit mais pas grand-chose d'autre, cela pourrait expliquer le résultat unique de ce site.

Répondu el 6 de Mars, 2009 par Utilisateur non enregistré (0 Points )

Answer 5

1voto

Piotr Lesnicki Points 4169

Vous avez oublié de résoudre le nom d'hôte :

addr = socket.gethostbyname(url[1])
...
sock.connect((addr,80))

Répondu el 19 de Novembre, 2008 par Piotr Lesnicki (4169 Points )

Answer 6

0voto

Utilisateur non enregistré Points 0

Utilisez urllib2. Ou BelleSoupe .

Répondu el 6 de Mars, 2009 par Utilisateur non enregistré (0 Points )

(Python) socket.gaierror sur toutes les adresses...sauf http://www.reddit.com ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

(Python) socket.gaierror sur toutes les adresses...sauf http://www.reddit.com ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: