requests.get en python donne une erreur de délai de connexion

Question

requests.get en python donne une erreur de délai de connexion

Demandé el 19 de Novembre, 2017: Quand la question a-t-elle été
5775 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Langue Ver : Python 3.6.3
IDE Ver : PyCharm 2017.2.3

J'essayais d'analyser un site Web de météo pour imprimer la météo d'un lieu. Comme j'apprends Python, j'utilisais auparavant urllib.request.urlopen(url).read() et cela a fonctionné. Maintenant, je modifie le code pour BeautifulSoup4 y demande module. Voici mon code :

from bs4 import *
import requests
url = "https://www.accuweather.com/en/in/dhenkanal/189844/weather-forecast/189844"
data = requests.get(url)
soup = BeautifulSoup(data.text, "html.parser")
print(soup.find('div', {'class': 'info'}))

Mais chaque fois que j'essaie d'exécuter le code, il me donne l'erreur suivante :

Traceback (most recent call last):
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 601, in urlopen
chunked=chunked)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 387, in _make_request
six.raise_from(e, None)
File "", line 2, in raise_from
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 383, in _make_request
httplib_response = conn.getresponse()
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\http\client.py", line 1331, in getresponse
response.begin()
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\http\client.py", line 297, in begin
version, status, reason = self._read_status()
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\http\client.py", line 258, in _read_status
line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\socket.py", line 586, in readinto
return self._sock.recv_into(b)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 1009, in recv_into
return self.read(nbytes, buffer)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 871, in read
return self._sslobj.read(len, buffer)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 631, in read
v = self._sslobj.read(len, buffer)
TimeoutError: [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 440, in send
timeout=timeout
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 639, in urlopen
_stacktrace=sys.exc_info()[2])
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\retry.py", line 357, in increment
raise six.reraise(type(error), error, _stacktrace)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\packages\six.py", line 685, in reraise
raise value.with_traceback(tb)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 601, in urlopen
chunked=chunked)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 387, in _make_request
six.raise_from(e, None)
File "", line 2, in raise_from
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 383, in _make_request
httplib_response = conn.getresponse()
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\http\client.py", line 1331, in getresponse
response.begin()
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\http\client.py", line 297, in begin
version, status, reason = self._read_status()
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\http\client.py", line 258, in _read_status
line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\socket.py", line 586, in readinto
return self._sock.recv_into(b)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 1009, in recv_into
return self.read(nbytes, buffer)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 871, in read
return self._sslobj.read(len, buffer)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 631, in read
v = self._sslobj.read(len, buffer)
urllib3.exceptions.ProtocolError: ('Connection aborted.', TimeoutError(10060, 'A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond', None, 10060, None))

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "E:/Projects/Python/Practice/Practice1.py", line 5, in 
data = requests.get(url)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 72, in get
return request('get', url, params=params, **kwargs)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 58, in request
return session.request(method=method, url=url, **kwargs)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 508, in request
resp = self.send(prep, **send_kwargs)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 618, in send
r = adapter.send(request, **kwargs)
File "C:\Users\Nrusingh\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 490, in send
raise ConnectionError(err, request=request)
requests.exceptions.ConnectionError: ('Connection aborted.', TimeoutError(10060, 'A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond', None, 10060, None))

Process finished with exit code 1

Quelle est cette erreur et comment la corriger ? Et pourquoi cela fonctionne dans urllib, mais pas dans les requêtes ?

Demandé el 19 de Novembre, 2017 par Nrusingh Prasad Acharya

0 votes

Désolé d'ajouter un lien externe car je ne sais pas comment ajouter un journal d'erreurs dans la question et stackoverflow ne m'a pas laissé ajouter mon journal d'erreurs dans la question.

Commenté el 19 de Novembre, 2017 par Nrusingh Prasad Acharya

0 votes

Je l'ai modifié pour vous. C'est une erreur monumentale :)

Commenté el 19 de Novembre, 2017 par roganjosh

0 votes

Réponse courte, utilisez un en-tête appelé user agent. réponse ci-dessous :)

Commenté el 19 de Novembre, 2017 par dnafication

Answer 1

2 Réponses

Answer 2

4voto

dnafication Points 314

J'ai utilisé votre code directement et j'ai eu la même erreur, puis j'ai suivi la façon dont les requêtes sont envoyées dans le navigateur. Certains serveurs ne répondent pas si les en-têtes attendus ne sont pas envoyés avec la requête qu'ils utilisent dans le cadre du traitement en arrière-plan. Il s'avère que le serveur recherchait un en-tête appelé user-agent généralement utilisé pour déterminer de quel client provient la demande. Maintenant, code modifié ci-dessous qui fonctionne !

from bs4 import *
import requests
url = "https://www.accuweather.com/en/in/dhenkanal/189844/weather-forecast/189844"

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}

data = requests.get(url, headers=headers)
soup = BeautifulSoup(data.text, "html.parser")

Maintenant vous pouvez jouer avec votre soupe ! Vous pouvez en fait passer d'autres en-têtes comme accept, dnt, pragma, accept-language, cache-control etc. L'explication de ces en-têtes http est pour une autre question, une autre fois. J'espère que cela vous aidera :)

Répondu el 19 de Novembre, 2017 par dnafication (314 Points )

Answer 3

1voto

Argus Malware Points 513

Essayez d'augmenter le paramètre timeout de votre méthode requests.get :

requests.get(url, headers=headers, timeout=5)

Mais si votre script est bloqué par le serveur pour empêcher les tentatives de scrapping . Si c'est le cas, vous pouvez essayer de simuler un navigateur web en définissant des en-têtes appropriés.

{"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)", "Referer": "http://example.com"}

votre code final

import requests
url = "https://www.accuweather.com/en/in/dhenkanal/189844/weather-forecast/189844"
headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)", "Referer": "http://example.com"}
data = requests.get(url,headers=headers,timeout=5)

Répondu el 19 de Novembre, 2017 par Argus Malware (513 Points )

0 votes

J'ai même eu du mal à charger le lien dans le navigateur. Le délai d'attente de 120 minutes n'est pas suffisant pour empêcher l'erreur sur GET.

Commenté el 19 de Novembre, 2017 par roganjosh

0 votes

J'obtiens le résultat après un délai de 5 minutes.

Commenté el 19 de Novembre, 2017 par Argus Malware

1 votes

C'était pour ajouter l'agent utilisateur dans les en-têtes leur script bloquait le scrapping

Commenté el 19 de Novembre, 2017 par Argus Malware

requests.get en python donne une erreur de délai de connexion

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

requests.get en python donne une erreur de délai de connexion

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: