c# et regEx pour extraire la partie href des liens sur les pages html

Question

c# et regEx pour extraire la partie href des liens sur les pages html

Demandé el 4 de Mai, 2010: Quand la question a-t-elle été
273 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai ce code en c# pour extraire des liens d'une page web et je voulais le rendre plus intelligent en ce sens que je veux pouvoir ajouter de petits ajouts dans la fonction pour exclure des liens sur la base de 2 critères.

Je souhaite tout d'abord exclure certaines extensions de fichiers présentes sur les pages telles que les liens vers des fichiers pdf ou ppt...

Ensuite, je voudrais pouvoir exclure les liens de la première partie de l'url vers des choses telles que ftp et images.google... ou maps.google.... et mailto...

Voici mon code actuel qui a besoin d'aide :

MatchCollection m1 = Regex.Matches(file, @"(?i)(<A[^>]*href\s*=\s*['""](?!mailto|[^'""]*\.(?:pdf|doc|ppt))[^>]*>.*?</A>)", RegexOptions.Singleline);

Demandé el 4 de Mai, 2010 par kacalapy

Answer 1

1 Réponses

Answer 2

1voto

Mitch Wheat Points 169614

Avez-vous pris en compte les Pack Agilité Html ?

Répondu el 4 de Mai, 2010 par Mitch Wheat (169614 Points )

c# et regEx pour extraire la partie href des liens sur les pages html

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

c# et regEx pour extraire la partie href des liens sur les pages html

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: