Comment convertir des caractères en entités HTML à l'aide de JavaScript pur

Question

Comment convertir des caractères en entités HTML à l'aide de JavaScript pur

Demandé el 30 de Août, 2009: Quand la question a-t-elle été
33552 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai le texte suivant:

var text = "Übergroße Äpfel mit Würmern";

Je suis à la recherche d'une fonction Javascript pour transformer le texte de sorte que chaque lettre est représentée par son entité HTML séquence comme ceci:

var newText = magicFunction(text);
...
newText = "&Uuml;bergro&szlig;e &Auml;pfel mit W&uuml;rmern";

La fonction doit non seulement échapper aux lettres de cet exemple , mais aussi tous les de ces.

Comment voulez-vous y parvenir? Est-il une fonction existante sur le marché? (Plaine, car une solution sans un cadre est de préférence)

Btw: Oui, j'ai vu cette question , mais il ne répond pas à mon besoin.

Demandé el 30 de Août, 2009 par Chris

Answer 1

5 Réponses

Answer 2

65voto

Chris Points 4552

Avec l'aide de bucabay et les conseils pour créer ma propre fonction que j'ai créé ce qui fonctionne pour moi. Que faites vous en pensez, est-il une meilleure solution quelque part?

if(typeof escapeHtmlEntities == 'undefined') {
        escapeHtmlEntities = function (text) {
            return text.replace(/[\u00A0-\u2666<>\&]/g, function(c) {
                return '&' + 
                (escapeHtmlEntities.entityTable[c.charCodeAt(0)] || '#'+c.charCodeAt(0)) + ';';
            });
        };

        // all HTML4 entities as defined here: http://www.w3.org/TR/html4/sgml/entities.html
        // added: amp, lt, gt, quot and apos
        escapeHtmlEntities.entityTable = {
            34 : 'quot', 
            38 : 'amp', 
            39 : 'apos', 
            60 : 'lt', 
            62 : 'gt', 
            160 : 'nbsp', 
            161 : 'iexcl', 
            162 : 'cent', 
            163 : 'pound', 
            164 : 'curren', 
            165 : 'yen', 
            166 : 'brvbar', 
            167 : 'sect', 
            168 : 'uml', 
            169 : 'copy', 
            170 : 'ordf', 
            171 : 'laquo', 
            172 : 'not', 
            173 : 'shy', 
            174 : 'reg', 
            175 : 'macr', 
            176 : 'deg', 
            177 : 'plusmn', 
            178 : 'sup2', 
            179 : 'sup3', 
            180 : 'acute', 
            181 : 'micro', 
            182 : 'para', 
            183 : 'middot', 
            184 : 'cedil', 
            185 : 'sup1', 
            186 : 'ordm', 
            187 : 'raquo', 
            188 : 'frac14', 
            189 : 'frac12', 
            190 : 'frac34', 
            191 : 'iquest', 
            192 : 'Agrave', 
            193 : 'Aacute', 
            194 : 'Acirc', 
            195 : 'Atilde', 
            196 : 'Auml', 
            197 : 'Aring', 
            198 : 'AElig', 
            199 : 'Ccedil', 
            200 : 'Egrave', 
            201 : 'Eacute', 
            202 : 'Ecirc', 
            203 : 'Euml', 
            204 : 'Igrave', 
            205 : 'Iacute', 
            206 : 'Icirc', 
            207 : 'Iuml', 
            208 : 'ETH', 
            209 : 'Ntilde', 
            210 : 'Ograve', 
            211 : 'Oacute', 
            212 : 'Ocirc', 
            213 : 'Otilde', 
            214 : 'Ouml', 
            215 : 'times', 
            216 : 'Oslash', 
            217 : 'Ugrave', 
            218 : 'Uacute', 
            219 : 'Ucirc', 
            220 : 'Uuml', 
            221 : 'Yacute', 
            222 : 'THORN', 
            223 : 'szlig', 
            224 : 'agrave', 
            225 : 'aacute', 
            226 : 'acirc', 
            227 : 'atilde', 
            228 : 'auml', 
            229 : 'aring', 
            230 : 'aelig', 
            231 : 'ccedil', 
            232 : 'egrave', 
            233 : 'eacute', 
            234 : 'ecirc', 
            235 : 'euml', 
            236 : 'igrave', 
            237 : 'iacute', 
            238 : 'icirc', 
            239 : 'iuml', 
            240 : 'eth', 
            241 : 'ntilde', 
            242 : 'ograve', 
            243 : 'oacute', 
            244 : 'ocirc', 
            245 : 'otilde', 
            246 : 'ouml', 
            247 : 'divide', 
            248 : 'oslash', 
            249 : 'ugrave', 
            250 : 'uacute', 
            251 : 'ucirc', 
            252 : 'uuml', 
            253 : 'yacute', 
            254 : 'thorn', 
            255 : 'yuml', 
            402 : 'fnof', 
            913 : 'Alpha', 
            914 : 'Beta', 
            915 : 'Gamma', 
            916 : 'Delta', 
            917 : 'Epsilon', 
            918 : 'Zeta', 
            919 : 'Eta', 
            920 : 'Theta', 
            921 : 'Iota', 
            922 : 'Kappa', 
            923 : 'Lambda', 
            924 : 'Mu', 
            925 : 'Nu', 
            926 : 'Xi', 
            927 : 'Omicron', 
            928 : 'Pi', 
            929 : 'Rho', 
            931 : 'Sigma', 
            932 : 'Tau', 
            933 : 'Upsilon', 
            934 : 'Phi', 
            935 : 'Chi', 
            936 : 'Psi', 
            937 : 'Omega', 
            945 : 'alpha', 
            946 : 'beta', 
            947 : 'gamma', 
            948 : 'delta', 
            949 : 'epsilon', 
            950 : 'zeta', 
            951 : 'eta', 
            952 : 'theta', 
            953 : 'iota', 
            954 : 'kappa', 
            955 : 'lambda', 
            956 : 'mu', 
            957 : 'nu', 
            958 : 'xi', 
            959 : 'omicron', 
            960 : 'pi', 
            961 : 'rho', 
            962 : 'sigmaf', 
            963 : 'sigma', 
            964 : 'tau', 
            965 : 'upsilon', 
            966 : 'phi', 
            967 : 'chi', 
            968 : 'psi', 
            969 : 'omega', 
            977 : 'thetasym', 
            978 : 'upsih', 
            982 : 'piv', 
            8226 : 'bull', 
            8230 : 'hellip', 
            8242 : 'prime', 
            8243 : 'Prime', 
            8254 : 'oline', 
            8260 : 'frasl', 
            8472 : 'weierp', 
            8465 : 'image', 
            8476 : 'real', 
            8482 : 'trade', 
            8501 : 'alefsym', 
            8592 : 'larr', 
            8593 : 'uarr', 
            8594 : 'rarr', 
            8595 : 'darr', 
            8596 : 'harr', 
            8629 : 'crarr', 
            8656 : 'lArr', 
            8657 : 'uArr', 
            8658 : 'rArr', 
            8659 : 'dArr', 
            8660 : 'hArr', 
            8704 : 'forall', 
            8706 : 'part', 
            8707 : 'exist', 
            8709 : 'empty', 
            8711 : 'nabla', 
            8712 : 'isin', 
            8713 : 'notin', 
            8715 : 'ni', 
            8719 : 'prod', 
            8721 : 'sum', 
            8722 : 'minus', 
            8727 : 'lowast', 
            8730 : 'radic', 
            8733 : 'prop', 
            8734 : 'infin', 
            8736 : 'ang', 
            8743 : 'and', 
            8744 : 'or', 
            8745 : 'cap', 
            8746 : 'cup', 
            8747 : 'int', 
            8756 : 'there4', 
            8764 : 'sim', 
            8773 : 'cong', 
            8776 : 'asymp', 
            8800 : 'ne', 
            8801 : 'equiv', 
            8804 : 'le', 
            8805 : 'ge', 
            8834 : 'sub', 
            8835 : 'sup', 
            8836 : 'nsub', 
            8838 : 'sube', 
            8839 : 'supe', 
            8853 : 'oplus', 
            8855 : 'otimes', 
            8869 : 'perp', 
            8901 : 'sdot', 
            8968 : 'lceil', 
            8969 : 'rceil', 
            8970 : 'lfloor', 
            8971 : 'rfloor', 
            9001 : 'lang', 
            9002 : 'rang', 
            9674 : 'loz', 
            9824 : 'spades', 
            9827 : 'clubs', 
            9829 : 'hearts', 
            9830 : 'diams', 
            338 : 'OElig', 
            339 : 'oelig', 
            352 : 'Scaron', 
            353 : 'scaron', 
            376 : 'Yuml', 
            710 : 'circ', 
            732 : 'tilde', 
            8194 : 'ensp', 
            8195 : 'emsp', 
            8201 : 'thinsp', 
            8204 : 'zwnj', 
            8205 : 'zwj', 
            8206 : 'lrm', 
            8207 : 'rlm', 
            8211 : 'ndash', 
            8212 : 'mdash', 
            8216 : 'lsquo', 
            8217 : 'rsquo', 
            8218 : 'sbquo', 
            8220 : 'ldquo', 
            8221 : 'rdquo', 
            8222 : 'bdquo', 
            8224 : 'dagger', 
            8225 : 'Dagger', 
            8240 : 'permil', 
            8249 : 'lsaquo', 
            8250 : 'rsaquo', 
            8364 : 'euro'
        };
    }

exemple d'utilisation:

var text = "Übergroße Äpfel mit Würmern";
alert(escapeHtmlEntities (text));

résultat:

&Uuml;bergro&szlig;e &Auml;pfel mit W&uuml;rmern

Update1: Merci bucabay de nouveau pour le || - indicateur de
Update2: mise à Jour de l'entité de table avec amp,lt,gt,apos,quot, merci richardtallent pour l'astuce
Update3(en 2014): Mathias Bynens créé une lib disant "il", peut-être que ça sert à votre besoin.

Répondu el 30 de Août, 2009 par Chris (4552 Points )

Answer 3

63voto

Mathias Bynens Points 41065

Toutes les autres solutions suggérées ici, ainsi que la plupart des autres bibliothèques JavaScript qui n'en entité HTML de codage/décodage, de faire plusieurs erreurs:

Ils n'implémentent pas la liste complète des nommés références de caractère que les navigateurs prennent en charge. Par exemple, htmlDecode('&PrecedesSlantEqual;') doit renvoyer '≼' (c'est à dire '\u227C').
Ils ne prennent pas en charge le codage astral symboles correctement. Par exemple, htmlEncode('

Répondu el 23 de Mai, 2014 par Mathias Bynens (41065 Points )

Answer 4

21voto

bucabay Points 2511

À l'aide d'échappement() devrait collaborer avec le caractère de la portée du code 0x00 à 0xFF (UTF-8).

Si vous allez au-delà de 0xFF (255), comme 0x100 (256), puis escape() ne fonctionnera pas:

escape("\u0100"); // %u0100

et:

text = "\u0100"; // Ā
html = escape(text).replace(/%(..)/g,"&#x$1;"); // &#xu0;100

Donc, si vous souhaitez couvrir tous Unicode charachacters définis à l' http://www.w3.org/TR/html4/sgml/entities.html , alors vous pouvez utiliser quelque chose comme:

var html = text.replace(/[\u00A0-\u00FF]/g, function(c) {
   return '&#'+c.charCodeAt(0)+';';
});

Notez ici la plage est compris entre: \u00A0-\u00FF.

C'est le premier caractère de la portée du code défini dans http://www.w3.org/TR/html4/sgml/entities.html qui est le même que ce escape() couvre.

Vous aurez besoin d'ajouter les autres plages que vous souhaitez couvrir aussi bien, ou la totalité d'entre eux.

Exemple: UTF-8 portée générale, de signes de ponctuation (\u00A0-\u00FF et \u2022-\u2135)

var html = text.replace(/[\u00A0-\u00FF\u2022-\u2135]/g, function(c) {
   return '&#'+c.charCodeAt(0)+';';
});

Edit:

BTW: \u00A0-\u2666 doit convertir chaque caractère Unicode code pas à l'intérieur de plage ASCII en entités HTML à l'aveuglette:

var html = text.replace(/[\u00A0-\u2666]/g, function(c) {
   return '&#'+c.charCodeAt(0)+';';
});

Répondu el 30 de Août, 2009 par bucabay (2511 Points )

Answer 5

7voto

KooiInc Points 38845

Vous pouvez utiliser:

 function encodeHTML(str){
 var aStr = str.split(''),
     i = aStr.length,
     aRet = [];

   while (--i) {
    var iC = aStr[i].charCodeAt();
    if (iC < 65 || iC > 127 || (iC>90 && iC<97)) {
      aRet.push('&#'+iC+';');
    } else {
      aRet.push(aStr[i]);
    }
  }
 return aRet.reverse().join('');
}

Cette fonction HTMLEncode tout ce qui n'est pas az / AZ.

Répondu el 30 de Août, 2009 par KooiInc (38845 Points )

Answer 6

4voto

richardtallent Points 17534

Avoir une table de recherche avec un bazillion replace() appels est lent et pas facile à gérer.

Heureusement, l' escape() fonction aussi de code pour la plupart des mêmes personnages, et les met dans un format cohérent (%XX, où XX est la valeur hexadécimale du caractère).

Donc, vous pouvez laisser échapper() la méthode de le faire la plupart du travail pour vous et il suffit de changer sa réponse à des entités HTML à la place de l'URL-les caractères échappés:

htmlescaped = escape(mystring).replace(/%(..)/g,"&#x$1;");

Il utilise le format hex pour échapper à des valeurs plutôt que les entités nommées, mais pour le stockage et l'affichage des valeurs, il fonctionne tout aussi bien que des entités nommées.

Bien sûr, échapper échappe également les caractères que vous n'avez pas besoin de s'échapper en HTML (espaces, par exemple), mais vous pouvez ne pas encoder avec un peu de remplacer les appels.

Edit: j'aime bucabay la réponse de mieux que la mienne... en charge d'un plus grand nombre de caractères, et ne nécessite pas de piratage par la suite pour obtenir des places, barres, etc. sans échappement.

Répondu el 30 de Août, 2009 par richardtallent (17534 Points )

Comment convertir des caractères en entités HTML à l'aide de JavaScript pur

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment convertir des caractères en entités HTML à l'aide de JavaScript pur

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: