Comment analyser un fichier texte en C# ?

Par mise en forme du texte, je voulais dire quelque chose de plus compliqué.

Au début, j'ai commencé à ajouter manuellement les 5000 lignes du fichier texte pour lequel je pose cette question, dans mon projet.

Le fichier texte comporte 5000 lignes de longueur différente, par exemple :

1   1   ITEM_ETC_GOLD_01    ()   xxx xxx xxx_TT_DESC 0   0   3   3   5   0   180000  3   0   1   0   0   255 1   1   0   0   0   0   0   0   0   0   0   0   -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_money_small.bsr    xxx xxx xxx 0   2   0   0   1   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1     (param1) -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

1   4   ITEM_ETC_HP_POTION_01   HP      xxx SN_ITEM_ETC_HP_POTION_01    SN_ITEM_ETC_HP_POTION_01_TT_DESC    0   0   3   3   1   1   180000  3   0   1   1   1   255 3   1   0   0   1   0   60  0   0   0   1   21  -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_bag.bsr    item\etc\hp_potion_01.ddj   xxx xxx 50  2   0   0   1   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 120 HP   0   HP(%)    0   MP   0   MP(%)    -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

1   5   ITEM_ETC_HP_POTION_02   HP  ()  xxx SN_ITEM_ETC_HP_POTION_02    SN_ITEM_ETC_HP_POTION_02_TT_DESC    0   0   3   3   1   1   180000  3   0   1   1   1   255 3   1   0   0   1   0   110 0   0   0   2   39  -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_bag.bsr    item\etc\hp_potion_02.ddj   xxx xxx 50  2   0   0   2   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 220 HP   0   HP(%)    0   MP   0   MP(%)    -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

Le texte entre le premier caractère (1) et le deuxième caractère (1/4/5) n'est pas un espace, c'est une tabulation. Il n'y a pas d'espace dans ce fichier texte.

Ce que je veux :

Je veux obtenir le second nombre entier (dans les trois lignes que j'ai postées ci-dessus, les seconds nombres entiers sont 1, 4 et 5) et la chaîne au milieu de chaque ligne indiquant le chemin (elle commence par "item\" et se termine par l'extension du fichier ".ddj").

Mon problème :

Je ne sais pas comment rechercher du texte à l'intérieur d'un fichier texte. Je ne peux pas non plus rechercher le premier nombre entier, car s'il s'agit d'un petit nombre entier comme dans les trois lignes que j'ai postées ci-dessus, je ne pourrai pas trouver l'emplacement correct, car par exemple "1" pourrait exister à un autre endroit.

Ma question :

Ce serait le mieux si j'écrivais un programme qui efface tout, sauf ce dont j'ai besoin.

L'autre moyen auquel je pense est de chercher directement dans ce fichier, mais comme je l'ai mentionné plus haut, je risque d'obtenir le mauvais emplacement du deuxième entier s'il est trop bas.

S'il vous plaît, proposez quelque chose, je ne peux pas formater tout ça à la main.


Samir Talwar Points 9307

OK, voici ce qu'on fait : on ouvre le fichier, on le lit ligne par ligne, et on le divise par des tabulations. Puis on prend le deuxième entier et on boucle sur le reste pour trouver le chemin.

StreamReader reader = File.OpenText("filename.txt");
string line;
while ((line = reader.ReadLine()) != null) 
    string[] items = line.Split('\t');
    int myInteger = int.Parse(items[1]);   // Here's your integer.

    // Now let's find the path.
    string path = null;
    foreach (string item in items) 
        if (item.StartsWith("item\\") && item.EndsWith(".ddj"))
            path = item;

    // At this point, `myInteger` and `path` contain the values we want
    // for the current line. We can then store those values or print them,
    // or anything else we like.


Samir Talwar Points 9307

Une autre solution, cette fois en utilisant des expressions régulières :

using System.Text.RegularExpressions;


Regex parts = new Regex(@"^\d+\t(\d+)\t.+?\t(item\\[^\t]+\.ddj)");

StreamReader reader = FileInfo.OpenText("filename.txt");
string line;
while ((line = reader.ReadLine()) != null) {
    Match match = parts.Match(line);
    if (match.Success) {
        int number = int.Parse(match.Group(1).Value);
        string path = match.Group(2).Value;

        // At this point, `number` and `path` contain the values we want
        // for the current line. We can then store those values or print them,
        // or anything else we like.

Cette expression est un peu complexe, alors voici sa décomposition :

^        Start of string
\d+      "\d" means "digit" - 0-9. The "+" means "one or more."
         So this means "one or more digits."
\t       This matches a tab.
(\d+)    This also matches one or more digits. This time, though, we capture it
         using brackets. This means we can access it using the Group method.
\t       Another tab.
.+?      "." means "anything." So "one or more of anything". In addition, it's lazy.
         This is to stop it grabbing everything in sight - it'll only grab as much
         as it needs to for the regex to work.
\t       Another tab.

    Here's the meat. This matches: "item\<one or more of anything but a tab>.ddj"


erikkallen Points 16601

Vous pourriez faire quelque chose comme :

using (TextReader rdr = OpenYourFile()) {
    string line;
    while ((line = rdr.ReadLine()) != null) {
        string[] fields = line.Split('\t'); // THIS LINE DOES THE MAGIC
        int theInt = Convert.ToInt32(fields[1]);

La raison pour laquelle vous n'avez pas trouvé de résultat pertinent en recherchant "formatage" est que l'opération que vous effectuez est appelée "analyse syntaxique".


Vin Points 3945

Comme cela a déjà été mentionné, je recommande vivement l'utilisation d'expressions régulières (dans System.Text) pour effectuer ce genre de travail.

En combinaison avec un outil solide comme RegexBuddy Avec cet outil, vous pouvez gérer des situations complexes d'analyse syntaxique d'enregistrements de texte et obtenir des résultats rapidement. Cet outil vous facilite la tâche.

J'espère que cela vous aidera.


Mark Green Points 2037

Une méthode que j'ai trouvée très utile dans ce genre de situation consiste à utiliser le fournisseur Jet OLEDB à l'ancienne, ainsi qu'un fichier schema.ini pour lire de gros fichiers délimités par des tabulations à l'aide d'ADO.Net. Évidemment, cette méthode n'est vraiment utile que si vous connaissez le format du fichier à importer.

public void ImportCsvFile(string filename)
    FileInfo file = new FileInfo(filename);

    using (OleDbConnection con = 
            new OleDbConnection("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=\"" +
            file.DirectoryName + "\";
            Extended Properties='text;HDR=Yes;FMT=TabDelimited';"))
        using (OleDbCommand cmd = new OleDbCommand(string.Format
                                  ("SELECT * FROM [{0}]", file.Name), con))

            // Using a DataReader to process the data
            using (OleDbDataReader reader = cmd.ExecuteReader())
                while (reader.Read())
                    // Process the current reader entry...

            // Using a DataTable to process the data
            using (OleDbDataAdapter adp = new OleDbDataAdapter(cmd))
                DataTable tbl = new DataTable("MyTable");

                foreach (DataRow row in tbl.Rows)
                    // Process the current row...

Une fois que vous avez les données dans un format agréable comme une table de données, le filtrage des données dont vous avez besoin devient assez trivial.


