268 votes

Web-scraping JavaScript page avec Python

J'essaie de développer un simple grattoir web. Je veux extraire du texte sans le code HTML. Il fonctionne sur HTML simple, mais pas dans certaines pages où le code JavaScript ajoute du texte.

Par exemple, si du code JavaScript ajoute du texte, je ne peux pas le voir, parce que lorsque j'appelle :

response = urllib2.urlopen(request)

Je reçois le texte original sans celui ajouté (car JavaScript est exécuté dans le client).

Donc, je cherche des idées pour résoudre ce problème.

64voto

amazingthere Points 558

Peut-être que le sélénium peut le faire.

from selenium import webdriver
import time

driver = webdriver.Firefox()
driver.get(url)
time.sleep(5)
htmlSource = driver.page_source

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X