Supprimer les balises HTML d'une chaîne

Question

Supprimer les balises HTML d'une chaîne

Demandé el 27 de Octobre, 2008: Quand la question a-t-elle été
170286 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Existe-t-il un bon moyen de supprimer le HTML d'une chaîne Java ? Une simple expression rationnelle comme

replaceAll("\\<.*?>", "")

fonctionnera, mais des choses comme & sera converti correctement et les éléments nonHTML situés entre les deux crochets seront supprimés (c'est-à-dire que l'élément .*? dans la regex disparaîtra).

Demandé el 27 de Octobre, 2008 par Mason

3 votes

Utilisez-le avec le guide suivant : compilez 'org.jsoup:jsoup:1.9.2'.

Commenté el 26 de Septembre, 2016 par HPbyP

1 votes

stackoverflow.com/a/3149645/5733853

Commenté el 26 de Septembre, 2016 par HPbyP

0 votes

Voir aussi : stackoverflow.com/a/21838532/363573

Commenté el 18 de Janvier, 2019 par Stephan

Answer 1

5 Réponses

Answer 2

632voto

BalusC Points 498232

Utiliser un analyseur HTML au lieu d'une regex. C'est très simple avec Jsoup .

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup aussi soutient supprimer les balises HTML en les comparant à une liste blanche personnalisable, ce qui est très utile si vous souhaitez autoriser uniquement les balises suivantes, par exemple  ,  et  .

Voir aussi :

Répondu el 30 de Juin, 2010 par BalusC (498232 Points )

18 votes

Jsoup est sympa, mais j'ai rencontré quelques inconvénients avec elle. Je l'utilise pour me débarrasser des XSS, c'est-à-dire que j'attends une entrée en texte brut, mais une personne malveillante pourrait essayer de m'envoyer du HTML. En utilisant Jsoup, je peux supprimer tout le HTML mais, malheureusement, il réduit également de nombreux espaces à un seul et supprime les ruptures de liens ( \n personnages)

Commenté el 31 de Juillet, 2010 par Ridcully

7 votes

@Ridcully : pour cela, il faut utiliser Jsoup#clean() à la place.

Commenté el 6 de Août, 2010 par BalusC

3 votes

L'utilisation de clean() provoquera toujours des espaces supplémentaires et des \n les caractères à supprimer. ex : Jsoup.clean("a \n b", Whitelist.none()) renvoie "a b".

Commenté el 2 de Mai, 2011 par Keith

Afficher 19 autres commentaires

Answer 3

295voto

Ken Goodridge Points 1736

Si vous écrivez pour Android vous pouvez faire ça...

android.text.HtmlCompat.fromHtml(instruction, HtmlCompat.FROM_HTML_MODE_LEGACY).toString()

Répondu el 17 de Juin, 2011 par Ken Goodridge (1736 Points )

12 votes

Une astuce géniale :) Si vous affichez le texte dans un TextView, vous pouvez laisser tomber le .toString() pour préserver le formatage, également.

Commenté el 16 de Mars, 2012 par Lorne Laliberte

1 votes

@Branky Ce n'est pas le cas, j'ai essayé... la réponse acceptée fonctionne comme un charme.

Commenté el 7 de Août, 2014 par Maverick

0 votes

Il fonctionne très bien. Toutes les balises html ont été supprimées de la chaîne.

Commenté el 3 de Août, 2015 par user3144836

Afficher 3 autres commentaires

Answer 4

92voto

Chris Marasti-Georg Points 17023

Si l'utilisateur saisit hey! voulez-vous afficher hey! ou hey! ? Si c'est la première option, échappez les less-thans et codez les esperluettes en html (et éventuellement les guillemets) et tout ira bien. Une modification de votre code pour implémenter la seconde option serait :

replaceAll("\\<[^>]*>","")

mais vous rencontrerez des problèmes si l'utilisateur saisit quelque chose de malformé, comme <bhey! .

Vous pouvez également consulter JTidy qui analysera les entrées html "sales", et devrait vous donner un moyen de supprimer les balises, en conservant le texte.

Le problème quand on essaie de dépouiller le html est que les navigateurs ont des analyseurs très indulgents, plus indulgents que n'importe quelle bibliothèque que vous pouvez trouver, donc même si vous faites de votre mieux pour dépouiller toutes les balises (en utilisant la méthode de remplacement ci-dessus, une bibliothèque DOM, ou JTidy), vous aurez toujours vous devez vous assurer de coder tous les caractères spéciaux HTML restants pour garantir la sécurité de votre sortie.

Répondu el 27 de Octobre, 2008 par Chris Marasti-Georg (17023 Points )

1 votes

Vous rencontrez également des problèmes, s'il y a un signe < ou > non souligné à l'intérieur du contenu du nœud html. Mon âge est < beaucoup de texte > puis votre âge. Je pense que la seule façon de le faire à 100% est via une interface DOM XML (comme SAX ou similaire), pour utiliser node.getText().

Commenté el 24 de Octobre, 2017 par Mitja Gustin

Answer 5

30voto

RealHowTo Points 13117

Une autre façon est d'utiliser javax.swing.text.html.HTMLEditorKit pour extraire le texte.

import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
    StringBuffer s;

    public Html2Text() {
    }

    public void parse(Reader in) throws IOException {
        s = new StringBuffer();
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleText(char[] text, int pos) {
        s.append(text);
    }

    public String getText() {
        return s.toString();
    }

    public static void main(String[] args) {
        try {
            // the HTML to convert
            FileReader in = new FileReader("java-new.html");
            Html2Text parser = new Html2Text();
            parser.parse(in);
            in.close();
            System.out.println(parser.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

réf : Supprimer les balises HTML d'un fichier pour n'extraire que le TEXTE

Répondu el 18 de Janvier, 2009 par RealHowTo (13117 Points )

5 votes

Le résultat de "a c" est "a b ou b > c", ce qui semble malheureux.

Commenté el 13 de Août, 2010 par dfrankow

1 votes

C'est ce qui a le mieux fonctionné pour moi. J'avais besoin de préserver les sauts de ligne. Je l'ai fait en ajoutant cette méthode simple à l'analyseur syntaxique : @Override public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) { if (t == HTML.Tag.P || t = HTML.Tag.BR) { s.append(' \n ') ; } }

Commenté el 18 de Février, 2020 par MiguelMunoz

2 votes

Dfrankow : L'expression mathématique a c devrait être écrite en html comme ceci : a c

Commenté el 18 de Février, 2020 par MiguelMunoz

Afficher 1 autres commentaires

Answer 6

18voto

Josh Points 121

Il est également très simple d'utiliser Jéricho et vous pouvez conserver une partie du formatage (sauts de ligne et liens, par exemple).

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());

Répondu el 5 de Août, 2011 par Josh (121 Points )

4 votes

Jericho a pu analyser à un saut de ligne. Jsoup et HTMLEditorKit ne pouvaient pas le faire.

Commenté el 24 de Août, 2011 par homaxto

0 votes

Jericho est tout à fait capable de faire ce travail, il l'a beaucoup utilisé dans ses propres projets.

Commenté el 24 de Mai, 2012 par Jerry Tian

3 votes

Jericho a travaillé comme un charme. Merci pour cette suggestion. Une remarque : il n'est pas nécessaire de créer un segment de la chaîne entière. Source étend Segment, donc l'un ou l'autre fonctionne dans le constructeur du Renderer.

Commenté el 2 de Septembre, 2015 par MrPlow

Afficher 1 autres commentaires

Supprimer les balises HTML d'une chaîne

Réponses

Voir aussi :

Questions en vedette

Top Tags

Prograide.com

Powered by:

Supprimer les balises HTML d'une chaîne

Réponses

Voir aussi :

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: