Je suis à la recherche d'un Analyseur HTML module python qui peut m'aider à obtenir les étiquettes sous forme de listes Python/dictionnaires/objets
Si j'ai un document de la forme:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
Ensuite, il devrait me donner un chemin pour accéder aux balises imbriquées par le nom ou l'id de la balise html.
De sorte que je pouvais lui demander de m'obtenir le contenu/texte dans la balise div class= "container" contenue dans la balise body, Ou quelque chose de similaire.
Si vous avez utilisé firefox inspecter l'élément caractéristique (HTML), vous savez qu'il vous donne toutes les balises dans un joli imbriqués, comme un arbre.
Je préfère un module intégré mais que demandez peut-être même un peu trop.
J'ai traversé beaucoup de Questions sur la stackoverflow site web et des blogs sur internet, et la plupart d'entre eux suggèrent BeautifulSoup ou lxml ou HTMLParser(intégré), mais quelques-uns de ces détails de la fonctionnalité et simplement la fin du débat sur qui est plus rapide/plus efficace.
Je Comprends que mes exigences sont vagues, donc Si vous avez d'autres informations dont vous auriez besoin d ' /comme n'hésitez pas à demander.