Sur la base des commentaires que j'ai reçus, j'ai regardé cela d'un peu plus loin. Il semble qu'actuellement, la meilleure pratique consiste à renoncer à l'aide d'entités HTML et l'utilisation réelle de caractères UTF-8 à la place. Les raisons citées sont comme suit:
- UTF-8 codages sont plus faciles à lire et les modifier pour ceux qui comprennent ce que le personnage de moyens et de savoir comment type.
- UTF-8 codages sont tout aussi inintelligible comme entité HTML codages pour ceux qui ne les comprennent pas, mais ils ont l'avantage de rendre comme des caractères spéciaux plutôt que difficile à comprendre décimale ou hexadécimale encodages.
Tant que votre page d'encodage est correctement configuré en UTF-8, vous devez utiliser le caractère réel au lieu d'une entité HTML. J'ai lu plusieurs documents sur ce sujet, mais les plus utiles ont été:
À partir de l' UTF-8: Le Secret de l'Encodage des Caractères de l'article:
Wikipédia est un cas d'étude pour un
l'application qui, à l'origine utilisé
ISO-8859-1 mais elle est passée à l'UTF-8 lors de l'
il est devenu très à la lourdeur de soutien
langues étrangères. Les robots maintenant
en fait aller à travers des articles et
convertir les entités de caractères à leur
correspondant des personnages réels pour l'
souci de convivialité et de
la facilité de recherche.
Cet article donne également un bel exemple d'implication d'encodage Chinois. Voici l'abrégé exemple, pour la cause de la paresse:
UTF-8:
這兩個字是甚麼意思
Entités HTML:
這兩個字是甚麼意思
L'UTF-8 et en entité HTML codages sont à la fois de sens pour moi, mais au moins le codage UTF-8 est reconnaissable en tant que langue étrangère, et qu'il s'affiche correctement dans une zone d'édition. L'article continue à dire ce qui suit à propos de l'entité HTML-version codée:
Extrêmement gênant pour ceux d'entre nous
qui savent réellement ce personnage
les entités sont totalement incompréhensibles
pour les utilisateurs pauvres qui n'en ont pas! Même le
un peu plus convivial,
"intelligible" les entités de caractères comme
et thêta; laisser les utilisateurs qui sont
motivé à apprendre le HTML
se gratter la tête. Sur l'autre
main, si ils voient θ dans une zone d'édition,
ils savent que c'est un spécial
caractère, et le traiter en conséquence,
même s'ils ne savent pas écrire
que de caractères eux-mêmes.
Comme d'autres l'ont noté, vous devez toujours utiliser les entités HTML pour les caractères XML réservés (esperluette, inférieur, supérieur).