Convertir des entités XML/HTML en chaînes Unicode en Python

Question

Convertir des entités XML/HTML en chaînes Unicode en Python

Demandé el 11 de Septembre, 2008: Quand la question a-t-elle été
39396 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Cette question a déjà des réponses:

Décoder les entités HTML en chaîne Python ? (5 réponses )

Je fais du scraping web et les sites utilisent fréquemment des entités HTML pour représenter des caractères non ascii. Est-ce que Python a un utilitaire qui prend une chaîne avec des entités HTML et renvoie un type unicode ?

Par exemple :

Je reviens :

&#x01ce;

qui représente un "a" avec une marque de tonalité. En binaire, ce chiffre est représenté par le 01ce (16 bits). Je veux convertir l'entité html en la valeur u'\u01ce'

Demandé el 11 de Septembre, 2008 par Cristian

0 votes

Connexes : Décoder des entités HTML dans une chaîne Python ?

Commenté el 2 de Février, 2016 par J.F. Sebastian

Answer 1

5 Réponses

Answer 2

61voto

Vladislav Polukhin Points 499

Le HTMLParser de la librairie standard possède une fonction non documentée unescape() qui fait exactement ce que vous pensez qu'elle fait :

jusqu'à Python 3.4 :

import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&copy; 2010') # u'\xa9 2010'
h.unescape('&#169; 2010') # u'\xa9 2010'

Python 3.4+ :

import html
html.unescape('&copy; 2010') # u'\xa9 2010'
html.unescape('&#169; 2010') # u'\xa9 2010'

Répondu el 27 de Septembre, 2012 par Vladislav Polukhin (499 Points )

0 votes

il fonctionne également pour les entités hexagonales . Les La mise en œuvre est très similaire à la fonction unescape() de Réponse de @dF. .

Commenté el 2 de Octobre, 2012 par J.F. Sebastian

8 votes

Cette méthode n'est pas documentée dans la documentation HTMLParser de Python, et un commentaire dans le source indique qu'elle est destinée à un usage interne. Cependant, elle fonctionne comme un charme dans Python 2.6 et 2.7, et c'est probablement la meilleure solution qui existe. Avant la version 2.6, il ne décodait que les entités nommées comme & ou > .

Commenté el 17 de Octobre, 2012 par Aram Dulyan

7 votes

Il est exposé comme html.unescape() dans Python 3.4+

Commenté el 7 de Octobre, 2014 par J.F. Sebastian

Afficher 1 autres commentaires

Answer 3

60voto

dF. Points 29787

Python dispose de la htmlentitydefs mais celui-ci n'inclut pas de fonction pour désencoder les entités HTML.

Le développeur Python Fredrik Lundh (auteur de elementtree, entre autres) dispose d'une telle fonction sur son site internet qui fonctionne avec des entités décimales, hexagonales et nommées :

import re, htmlentitydefs

##
# Removes HTML or XML character references and entities from a text string.
#
# @param text The HTML (or XML) source text.
# @return The plain text, as a Unicode string, if necessary.

def unescape(text):
    def fixup(m):
        text = m.group(0)
        if text[:2] == "&#":
            # character reference
            try:
                if text[:3] == "&#x":
                    return unichr(int(text[3:-1], 16))
                else:
                    return unichr(int(text[2:-1]))
            except ValueError:
                pass
        else:
            # named entity
            try:
                text = unichr(htmlentitydefs.name2codepoint[text[1:-1]])
            except KeyError:
                pass
        return text # leave as is
    return re.sub("&#?\w+;", fixup, text)

Répondu el 12 de Septembre, 2008 par dF. (29787 Points )

0 votes

Absolument. Pourquoi n'est-il pas dans la stdlib ?

Commenté el 13 de Août, 2012 par smci

0 votes

En regardant son code, il ne semble pas fonctionner avec & et autres, n'est-ce pas ?

Commenté el 14 de Juin, 2013 par jnns

0 votes

Vient d'être testé avec succès pour &

Commenté el 30 de Septembre, 2013 par joel.d

Answer 4

18voto

chryss Points 3420

Utilisez la fonction intégrée unichr -- BeautifulSoup n'est pas nécessaire :

>>> entity = '&#x01ce'
>>> unichr(int(entity[3:],16))
u'\u01ce'

Répondu el 11 de Septembre, 2008 par chryss (3420 Points )

2 votes

Mais cela implique que vous sachiez automatiquement et sans ambiguïté à quel endroit de la chaîne se trouve le ou les caractères Unicode encodés - ce que vous ne pouvez pas savoir. Et vous devez try...catch l'exception qui en résulte en cas d'erreur.

Commenté el 13 de Août, 2012 par smci

0 votes

unichar a été supprimé dans python3. Une suggestion pour cette version ?

Commenté el 30 de Janvier, 2018 par StefanJCollier

Answer 5

16voto

pragmar Points 435

Une alternative, si vous avez lxml :

>>> import lxml.html
>>> lxml.html.fromstring('&#x01ce').text
u'\u01ce'

Répondu el 9 de Février, 2012 par pragmar (435 Points )

0 votes

Attention cependant, car cela peut également renvoyer un objet de type str s'il n'y a pas de caractère spécial.

Commenté el 20 de Octobre, 2014 par pintoch

0 votes

La meilleure solution quand tout échoue, seul lxml vient à la rescousse :)

Commenté el 20 de Novembre, 2016 par Mansoor Akram

Answer 6

8voto

J.F. Sebastian Points 102961

Vous pourriez trouver une réponse ici -- Obtenir des caractères internationaux à partir d'une page web ?

EDIT : Il semble que BeautifulSoup ne convertit pas les entités écrites sous forme hexadécimale. Cela peut être corrigé :

import copy, re
from BeautifulSoup import BeautifulSoup

hexentityMassage = copy.copy(BeautifulSoup.MARKUP_MASSAGE)
# replace hexadecimal character reference by decimal one
hexentityMassage += [(re.compile('&#x([^;]+);'), 
                     lambda m: '&#%d;' % int(m.group(1), 16))]

def convert(html):
    return BeautifulSoup(html,
        convertEntities=BeautifulSoup.HTML_ENTITIES,
        markupMassage=hexentityMassage).contents[0].string

html = '<html>&#x01ce;&#462;</html>'
print repr(convert(html))
# u'\u01ce\u01ce'

EDIT :

unescape() mentionnée par @dF qui utilise htmlentitydefs module standard et unichr() pourrait être plus approprié dans ce cas.

Répondu el 11 de Septembre, 2008 par J.F. Sebastian (102961 Points )

0 votes

Cette solution ne fonctionne pas avec l'exemple : print BeautifulSoup('<html>ǎ</html>', convertEntities=BeautifulSoup.HTML_ENTITIES) Ceci renvoie la même entité HTML

Commenté el 12 de Septembre, 2008 par Cristian

0 votes

Note : ceci ne s'applique qu'à BeautifulSoup 3, déprécié et considéré comme obsolète depuis 2012. BeautifulSoup 4 gère automatiquement les entités HTML de ce type.

Commenté el 5 de Septembre, 2017 par Martijn Pieters

0 votes

@MartijnPieters : c'est exact. html.unescape() est une meilleure option sur le Python moderne.

Commenté el 5 de Septembre, 2017 par J.F. Sebastian

Afficher 2 autres commentaires

Convertir des entités XML/HTML en chaînes Unicode en Python

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Convertir des entités XML/HTML en chaînes Unicode en Python

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: