Analyse HTML de type jquery en Python ?

Question

Analyse HTML de type jquery en Python ?

Demandé el 16 de Juin, 2010: Quand la question a-t-elle été
6454 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Existe-t-il une bibliothèque Python qui me permette d'analyser un document HTML de manière similaire à ce qui se fait dans le domaine de la gestion de l'information ? jQuery fait ?

c'est-à-dire que j'aimerais pouvoir utiliser Syntaxe des sélecteurs CSS pour saisir un ensemble arbitraire de nœuds dans le document, lire leur contenu/attributs, etc.

La seule librairie Python d'analyse HTML que j'ai utilisée auparavant était BelleSoupe et, même si tout va bien, je continue à penser que l'analyse syntaxique serait plus rapide si je disposais de la syntaxe jQuery :D

Demandé el 16 de Juin, 2010 par Roy Tang

0 votes

Dernier site BeautifulSoup prend en charge les sélecteurs css. maintenant

Commenté el 17 de Juin, 2020 par eusoubrasileiro

Answer 1

5 Réponses

Answer 2

64voto

systempuntoout Points 27584

Si vous êtes à l'aise avec BelleSoupe vous pouvez simplement ajouter sélection de soupe à vos librairies.
Soupselect est une extension de sélecteur CSS pour BeautifulSoup.

Utilisation :

from bs4 import BeautifulSoup as Soup
from soupselect import select
import urllib
soup = Soup(urllib.urlopen('http://slashdot.org/'))
select(soup, 'div.title h3')

    [<h3><span><a href='http://stackoverflow.com//science.slashdot.org/'>Science</a>:</span></h3>,
     <h3><a href='http://stackoverflow.com//slashdot.org/articles/07/02/28/0120220.shtml'>Star Trek</h3>,
    ..]

Répondu el 16 de Juin, 2010 par systempuntoout (27584 Points )

0 votes

Cela semble être la meilleure solution pour moi en ce moment, je vais l'essayer. Merci !

Commenté el 16 de Juin, 2010 par Roy Tang

6 votes

C'est maintenant from bs4 pour une belle soupe 4

Commenté el 29 de Juin, 2013 par Andrew

10 votes

Si vous avez des problèmes pour installer soupselect, vous devriez essayer la version compatible avec pip proposée ici. github.com/syabro/soupselect : sudo pip install https://github.com/syabro/soupselect/archive/master.zip

Commenté el 22 de Janvier, 2014 par AsTeR

Afficher 1 autres commentaires

Answer 3

49voto

Luke Stanley Points 557

Considérons PyQuery :

http://packages.python.org/pyquery/

>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> import urllib
>>> d = pq("<html></html>")
>>> d = pq(etree.fromstring("<html></html>"))
>>> d = pq(url='http://google.com/')
>>> d = pq(url='http://google.com/', opener=lambda url: urllib.urlopen(url).read())
>>> d = pq(filename=path_to_html_file)
>>> d("#hello")
[<p#hello.hello>]
>>> p = d("#hello")
>>> p.html()
'Hello world !'
>>> p.html("you know <a href='http://python.org/'>Python</a> rocks")
[<p#hello.hello>]
>>> p.html()
u'you know <a href="http://python.org/">Python</a> rocks'
>>> p.text()
'you know Python rocks'

Répondu el 10 de Mai, 2011 par Luke Stanley (557 Points )

Answer 4

14voto

Ignacio Vazquez-Abrams Points 312628

Le site lxml supports de bibliothèque Sélecteurs CSS .

Répondu el 16 de Juin, 2010 par Ignacio Vazquez-Abrams (312628 Points )

Answer 5

7voto

eusoubrasileiro Points 1237

BelleSoupe L'utilisation de l'outil d'aide à la décision de la Commission européenne est désormais possible. `css selectors`

import requests
from bs4 import BeautifulSoup as Soup
html = requests.get('https://stackoverflow.com/questions/3051295').content
soup = Soup(html)

Titre du ce question

soup.select('h1.grid--cell :first-child')[0].text

Nombre de votes positifs sur la question

# first item 
soup.select_one('[itemprop="upvoteCount"]').text

en utilisant Requêtes Python pour obtenir la page html

Répondu el 17 de Juin, 2020 par eusoubrasileiro (1237 Points )

Answer 6

1voto

fizzbuzz Points 1235

Vous pouvez également jeter un coup d'œil à pyquery. Trouvez-le ici

Répondu el 24 de Janvier, 2014 par fizzbuzz (1235 Points )

Analyse HTML de type jquery en Python ?

Réponses

BelleSoupe L'utilisation de l'outil d'aide à la décision de la Commission européenne est désormais possible. `css selectors`

Questions en vedette

Top Tags

Prograide.com

Powered by:

Analyse HTML de type jquery en Python ?

Réponses

BelleSoupe L'utilisation de l'outil d'aide à la décision de la Commission européenne est désormais possible. css selectors

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by:

BelleSoupe L'utilisation de l'outil d'aide à la décision de la Commission européenne est désormais possible. `css selectors`