Comment convertir du HTML en RTF (Rich Text) dans .NET sans payer pour un composant ?

Question

Comment convertir du HTML en RTF (Rich Text) dans .NET sans payer pour un composant ?

Demandé el 29 de Septembre, 2008: Quand la question a-t-elle été
49735 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Existe-t-il une classe gratuite tierce ou .NET permettant de convertir du HTML en RTF (pour une utilisation dans un contrôle Windows Forms compatible avec le texte enrichi) ?

L'exigence de "gratuité" vient du fait que je ne travaille que sur un prototype et que je peux simplement charger le BrowserControl et rendre du HTML si nécessaire (même si c'est lent) et que Developer Express va bientôt publier son propre contrôle.

Je n'ai pas envie d'apprendre à écrire des RTF à la main, et je connais déjà le HTML, donc je me dis que c'est le moyen le plus rapide d'obtenir un code démontrable rapidement.

Demandé el 29 de Septembre, 2008 par Josh Kodroff

Answer 1

5 Réponses

Answer 2

42voto

Spartaco Points 284

En fait, il existe une méthode simple et gratuit solution : utilisez votre navigateur, ok c'est l'astuce que j'ai utilisé :

var webBrowser = new WebBrowser();
webBrowser.CreateControl(); // only if needed
webBrowser.DocumentText = *yourhtmlstring*;
while (_webBrowser.DocumentText != *yourhtmlstring*)
    Application.DoEvents();
webBrowser.Document.ExecCommand("SelectAll", false, null);
webBrowser.Document.ExecCommand("Copy", false, null);
*yourRichTextControl*.Paste();

Cela peut être plus lent que d'autres méthodes, mais au moins c'est gratuit et ça marche !

Répondu el 31 de Janvier, 2011 par Spartaco (284 Points )

0 votes

C'est une excellente solution. Il y aura une surcharge de latence, mais je pense que pour les gros documents, ce sera raisonnablement rapide, et la qualité sera bonne.

Commenté el 31 de Janvier, 2011 par Charles Stewart

1 votes

Y a-t-il un moyen d'enregistrer les images dans la zone de texte enrichi également ?

Commenté el 22 de Janvier, 2014 par Landmine

0 votes

Existe-t-il un moyen de convertir une version spécifique de RTF à l'aide de ce contrôle ? Par exemple, convertir en RTF 1.5 ou 1.8, etc.

Commenté el 11 de Septembre, 2014 par sager89

Afficher 3 autres commentaires

Answer 3

9voto

Jonathan Parker Points 4206

Consultez cet article de CodeProject sur XHTML2RTF .

Répondu el 16 de Avril, 2009 par Jonathan Parker (4206 Points )

0 votes

Excellent pour le XHTML, mais comme on peut le deviner en lisant le nom, il ne fonctionne pas aussi bien pour le non-XHTML/"vanilla HTML"...

Commenté el 29 de Août, 2014 par sager89

0 votes

Génial ! J'en ai fait une application de console. Il fallait ajouter [STAThread] devant la méthode principale de la console.

Commenté el 3 de Novembre, 2016 par dforce

Answer 4

5voto

cjbarth Points 838

Pour compléter la réponse de Spartaco, j'ai mis en place ce qui suit et qui fonctionne à merveille !

    Using reportWebBrowser As New WebBrowser
        reportWebBrowser.CreateControl()
        reportWebBrowser.DocumentText = sbHTMLDoc.ToString
        While reportWebBrowser.DocumentText <> sbHTMLDoc.ToString
            Application.DoEvents()
        End While
        reportWebBrowser.Document.ExecCommand("SelectAll", False, Nothing)
        reportWebBrowser.Document.ExecCommand("Copy", False, Nothing)

        Using reportRichTextBox As New RichTextBox
            reportRichTextBox.Paste()
            reportRichTextBox.SaveFile(DocumentFileName)
        End Using
    End Using

Répondu el 17 de Février, 2011 par cjbarth (838 Points )

1 votes

Faites attention aux problèmes d'allocation de mémoire si vous n'appelez pas Dispose() sur ces contrôles que vous créez tout le temps.

Commenté el 6 de Mai, 2012 par Seph

0 votes

Merci @Seph. J'ai modifié le code pour en tenir compte.

Commenté el 6 de Mai, 2012 par cjbarth

Answer 5

4voto

Ty. Points 2435

Votre meilleure option serait d'utiliser XSL pour transformer le HTML en RTF et vice versa (si nécessaire). Je n'ai pas pu trouver le fichier XSLT dont vous aurez besoin, mais je peux vous donner le code pour la transformation en C#

1) Charger le document XML

XPathDocument myXPathDoc = new XPathDocument(<xml file path>);

2) Charger le fichier XSL

XslTransform myXslTrans = new XslTransform() ;
myXslTrans.Load(<xsl file path>);

3) Créer un flux pour la sortie

XmlTextWriter myWriter = new XmlTextWriter("result.html",null);

4) Effectuer la transformation réelle

myXslTrans.Transform(myXPathDoc,null,myWriter);

Vous pourriez également écrire le XSLT vous-même, mais cela nécessiterait de connaître tous les caractères RTF que vous souhaitez manipuler ou au moins les éléments HTML que vous souhaitez utiliser et leur équivalent RTF. Voici un point de départ.

<?xml version="1.0"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    <xsl:template match="/">
        <xsl:text>{\rtf1\ansi\ansicpg1252\deff0\deflang1033{\fonttbl{\f0\fswiss\fcharset0 Arial;}}</xsl:text>
        <xsl:text>\viewkind4\uc1\pard\f0\fs20</xsl:text>
        <xsl:apply-templates select="items/item/description"/>
        <xsl:text>\par}</xsl:text>
    </xsl:template>

    <xsl:template match="description">
        <xsl:text> </xsl:text>
        <xsl:value-of select="."/>
        <xsl:text>\par</xsl:text>
    </xsl:template>
</xsl:stylesheet>

Répondu el 30 de Septembre, 2008 par Ty. (2435 Points )

Answer 6

3voto

Andrew Points 481

Ce n'est pas parfait bien sûr, mais voici le code que j'utilise pour convertir le HTML en texte brut.

(Je n'en suis pas l'auteur original, je l'ai adapté à partir d'un code trouvé sur le web)

public static string ConvertHtmlToText(string source) {

            string result;

            // Remove HTML Development formatting
            // Replace line breaks with space
            // because browsers inserts space
            result = source.Replace("\r", " ");
            // Replace line breaks with space
            // because browsers inserts space
            result = result.Replace("\n", " ");
            // Remove step-formatting
            result = result.Replace("\t", string.Empty);
            // Remove repeating speces becuase browsers ignore them
            result = System.Text.RegularExpressions.Regex.Replace(result,
                                                                  @"( )+", " ");

            // Remove the header (prepare first by clearing attributes)
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*head([^>])*>", "<head>",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"(<( )*(/)( )*head( )*>)", "</head>",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(<head>).*(</head>)", string.Empty,
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // remove all scripts (prepare first by clearing attributes)
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*script([^>])*>", "<script>",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"(<( )*(/)( )*script( )*>)", "</script>",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            //result = System.Text.RegularExpressions.Regex.Replace(result, 
            //         @"(<script>)([^(<script>\.</script>)])*(</script>)",
            //         string.Empty, 
            //         System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"(<script>).*(</script>)", string.Empty,
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // remove all styles (prepare first by clearing attributes)
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*style([^>])*>", "<style>",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"(<( )*(/)( )*style( )*>)", "</style>",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(<style>).*(</style>)", string.Empty,
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // insert tabs in spaces of <td> tags
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*td([^>])*>", "\t",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // insert line breaks in places of <BR> and <LI> tags
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*br( )*>", "\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*li( )*>", "\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // insert line paragraphs (double line breaks) in place
            // if <P>, <DIV> and <TR> tags
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*div([^>])*>", "\r\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*tr([^>])*>", "\r\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<( )*p([^>])*>", "\r\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // Remove remaining tags like <a>, links, images,
            // comments etc - anything thats enclosed inside < >
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<[^>]*>", string.Empty,
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // replace special characters:
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&nbsp;", " ",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&bull;", " * ",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&lsaquo;", "<",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&rsaquo;", ">",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&trade;", "(tm)",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&frasl;", "/",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"<", "<",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @">", ">",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&copy;", "(c)",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&reg;", "(r)",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            // Remove all others. More can be added, see
            // http://hotwired.lycos.com/webmonkey/reference/special_characters/
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     @"&(.{2,6});", string.Empty,
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);

            // make line breaking consistent
            result = result.Replace("\n", "\r");

            // Remove extra line breaks and tabs:
            // replace over 2 breaks with 2 and over 4 tabs with 4. 
            // Prepare first to remove any whitespaces inbetween
            // the escaped characters and remove redundant tabs inbetween linebreaks
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(\r)( )+(\r)", "\r\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(\t)( )+(\t)", "\t\t",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(\t)( )+(\r)", "\t\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(\r)( )+(\t)", "\r\t",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            // Remove redundant tabs
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(\r)(\t)+(\r)", "\r\r",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            // Remove multible tabs followind a linebreak with just one tab
            result = System.Text.RegularExpressions.Regex.Replace(result,
                     "(\r)(\t)+", "\r\t",
                     System.Text.RegularExpressions.RegexOptions.IgnoreCase);
            // Initial replacement target string for linebreaks
            string breaks = "\r\r\r";
            // Initial replacement target string for tabs
            string tabs = "\t\t\t\t\t";
            for (int index = 0; index < result.Length; index++) {
                result = result.Replace(breaks, "\r\r");
                result = result.Replace(tabs, "\t\t\t\t");
                breaks = breaks + "\r";
                tabs = tabs + "\t";
            }

            // Thats it.
            return result;

    }

Répondu el 30 de Septembre, 2008 par Andrew (481 Points )

8 votes

Downvoted pour les raisons si éloquemment expliquées ici : stackoverflow.com/questions/1732348/

Commenté el 30 de Juin, 2011 par Duncan Bayne

0 votes

Ironiquement, c'est pour presque les mêmes raisons que le XSLT peut être sujet à des erreurs. Le HTML est désordonné. Et c'est rarement un bon document XML prêt à être transformé. Je soupçonne qu'une solution appropriée incorporerait un peu de regex pour rendre le document suffisamment propre pour une transformation XSLT appropriée.

Commenté el 23 de Juin, 2012 par Menefee

Comment convertir du HTML en RTF (Rich Text) dans .NET sans payer pour un composant ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment convertir du HTML en RTF (Rich Text) dans .NET sans payer pour un composant ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: