BeatifulSoup innerhtml?

Question

BeatifulSoup innerhtml?

Demandé el 13 de Novembre, 2011: Quand la question a-t-elle été
43583 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Disons que j'ai une page avec une balise div. Je peux facilement obtenir cette div avec soup.find().

Maintenant que j'ai le résultat, j'aimerais imprimer le innerhtml COMPLET de cette div : je veux dire, j'aurais besoin d'une chaîne avec TOUS les balises html et le texte tous réunis, exactement comme la chaîne que je pourrais obtenir en javascript avec obj.innerHTML. Est-ce possible ?

Demandé el 13 de Novembre, 2011 par Matteo Monti

Answer 1

5 Réponses

Answer 2

105voto

ChrisD Points 537

TL;DR

Avec BeautifulSoup 4, utilisez element.encode_contents() si vous voulez une chaîne d'octets encodée en UTF-8, ou utilisez element.decode_contents() si vous voulez une chaîne Unicode Python. Par exemple, la méthode innerHTML du DOM ressemblerait à ceci :

def innerHTML(element):
    """Retourne le HTML interne d'un élément en tant que chaîne d'octets encodée en UTF-8."""
    return element.encode_contents()

Ces fonctions ne sont actuellement pas dans la documentation en ligne, je vais donc citer les définitions actuelles des fonctions et la chaîne de documentation du code.

`encode_contents` - depuis la version 4.0.4

def encode_contents(
    self, indent_level=None, encoding=DEFAULT_OUTPUT_ENCODING,
    formatter="minimal"):
    """Rend le contenu de cette balise en tant que chaîne d'octets.

    :param indent_level: Chaque ligne du rendu sera
       indentée de ce nombre d'espaces.

    :param encoding: La chaîne d'octets sera dans cet encodage.

    :param formatter: Le formateur de sortie responsable de la conversion
       des entités en caractères Unicode.
    """

Voir aussi la documentation sur les formateurs ; vous utiliserez probablement formatter="minimal" (le défaut) ou formatter="html" (pour les entités html) à moins que vous ne vouliez traiter le texte manuellement de quelque manière.

encode_contents renvoie une chaîne d'octets encodée. Si vous voulez une chaîne Unicode Python, utilisez plutôt decode_contents.

`decode_contents` - depuis la version 4.0.1

decode_contents fait la même chose que encode_contents mais renvoie une chaîne Unicode Python au lieu d'une chaîne d'octets encodée.

def decode_contents(self, indent_level=None,
                   eventual_encoding=DEFAULT_OUTPUT_ENCODING,
                   formatter="minimal"):
    """Rend le contenu de cette balise en tant que chaîne Unicode.

    :param indent_level: Chaque ligne du rendu sera
       indentée de ce nombre d'espaces.

    :param eventual_encoding: La balise est destinée à être
       encodée dans cet encodage. Cette méthode n'est _pas_
       responsable de réaliser cette encodage. Ces informations
       sont passées pour qu'elles puissent être substituées si le
       document contient une balise  mentionnant l'encodage du document.

    :param formatter: Le formateur de sortie responsable de la conversion
       des entités en caractères Unicode.
    """

BeautifulSoup 3

BeautifulSoup 3 n'a pas les fonctions mentionnées ci-dessus, à la place, il a renderContents

def renderContents(self, encoding=DEFAULT_OUTPUT_ENCODING,
                   prettyPrint=False, indentLevel=0):
    """Rend le contenu de cette balise en tant que chaîne dans l'encodage donné.
    Si l'encodage est None, renvoie une chaîne Unicode."""

Cette fonction a été ajoutée à BeautifulSoup 4 (dans la version 4.0.4) pour la compatibilité avec BS3.

Répondu el 4 de Septembre, 2013 par ChrisD (537 Points )

Answer 3

16voto

peewhy Points 400

Une des options pourrait être d'utiliser quelque chose comme ça :

 innerhtml = "".join([str(x) for x in div_element.contents])

Répondu el 13 de Novembre, 2011 par peewhy (400 Points )

2 votes

Il y a quelques autres problèmes avec cela. Tout d'abord, il n'échappe pas les entités html (comme supérieur à et inférieur à) dans les éléments de chaîne. Deuxièmement, il écrira le contenu des commentaires mais pas les balises de commentaire elles-mêmes.

Commenté el 4 de Septembre, 2013 par ChrisD

0 votes

Ajout d'une autre raison de ne pas utiliser cela pour les commentaires de @ChrisD : Cela générera une UnicodeDecodeError sur le contenu qui inclut des caractères non-ASCII.

Commenté el 25 de Juin, 2015 par Anthon

Answer 4

9voto

Pikamander2 Points 2060

Étant donné un élément BS4 soup comme

foobar

, voici quelques méthodes et attributs différents qui peuvent être utilisés pour récupérer son HTML et son texte de différentes manières, ainsi qu'un exemple de ce qu'ils renverront.

InnerHTML:

inner_html = element.encode_contents()

'foobar'

OuterHTML:

outer_html = str(element)

'foobar'

OuterHTML (pré-formaté):

pretty_outer_html = element.prettify()

'''

  foobar

'''

Texte uniquement (en utilisant .text):

element_text = element.text

'foobar'

Texte uniquement (en utilisant .string):

element_string = element.string

'foobar'

Répondu el 18 de Novembre, 2017 par Pikamander2 (2060 Points )

4 votes

Cela supprime les balises internes.

Commenté el 11 de Octobre, 2019 par hamid

0 votes

Peut-être avez-vous manqué la partie où la question dit "J'aurais besoin d'une chaîne avec TOUS les balises html"

Commenté el 24 de Février, 2021 par msoutopico

Answer 5

3voto

Amir Saniyan Points 2406

str(element) vous aide à obtenir outerHTML, puis supprimez la balise extérieure de la chaîne HTML extérieure.

Répondu el 21 de Septembre, 2020 par Amir Saniyan (2406 Points )

0 votes

Comment supprimer la balise extérieure de la chaîne HTML extérieure?

Commenté el 29 de Juin, 2022 par Oleg Yablokov

Answer 6

1voto

Michael Litvin Points 524

Que diriez-vous simplement de unicode(x)? Cela semble fonctionner pour moi.

Édition : Cela vous donnera le HTML extérieur et non l'intérieur.

Répondu el 30 de Janvier, 2016 par Michael Litvin (524 Points )

1 votes

Cela renverra la div comprenant l'élément extérieur, pas seulement le contenu.

Commenté el 24 de Octobre, 2017 par Arany

0 votes

Vous avez raison. Laissez ceci ici pour l'instant au cas où cela pourrait aider quelqu'un d'autre.

Commenté el 24 de Octobre, 2017 par Michael Litvin

BeatifulSoup innerhtml?

Réponses

TL;DR

`encode_contents` - depuis la version 4.0.4

`decode_contents` - depuis la version 4.0.1

BeautifulSoup 3

Questions en vedette

Top Tags

Prograide.com

Powered by:

BeatifulSoup innerhtml?

Réponses

TL;DR

encode_contents - depuis la version 4.0.4

decode_contents - depuis la version 4.0.1

BeautifulSoup 3

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by:

`encode_contents` - depuis la version 4.0.4

`decode_contents` - depuis la version 4.0.1