0 votes

c# et regEx pour extraire la partie href des liens sur les pages html

J'ai ce code en c# pour extraire des liens d'une page web et je voulais le rendre plus intelligent en ce sens que je veux pouvoir ajouter de petits ajouts dans la fonction pour exclure des liens sur la base de 2 critères.

Je souhaite tout d'abord exclure certaines extensions de fichiers présentes sur les pages telles que les liens vers des fichiers pdf ou ppt...

Ensuite, je voudrais pouvoir exclure les liens de la première partie de l'url vers des choses telles que ftp et images.google... ou maps.google.... et mailto...

Voici mon code actuel qui a besoin d'aide :

MatchCollection m1 = Regex.Matches(file, @"(?i)(<A[^>]*href\s*=\s*['""](?!mailto|[^'""]*\.(?:pdf|doc|ppt))[^>]*>.*?</A>)", RegexOptions.Singleline);

1voto

Mitch Wheat Points 169614

Avez-vous pris en compte les Pack Agilité Html ?

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X