J'ai ce code en c# pour extraire des liens d'une page web et je voulais le rendre plus intelligent en ce sens que je veux pouvoir ajouter de petits ajouts dans la fonction pour exclure des liens sur la base de 2 critères.
Je souhaite tout d'abord exclure certaines extensions de fichiers présentes sur les pages telles que les liens vers des fichiers pdf ou ppt...
Ensuite, je voudrais pouvoir exclure les liens de la première partie de l'url vers des choses telles que ftp et images.google... ou maps.google.... et mailto...
Voici mon code actuel qui a besoin d'aide :
MatchCollection m1 = Regex.Matches(file, @"(?i)(<A[^>]*href\s*=\s*['""](?!mailto|[^'""]*\.(?:pdf|doc|ppt))[^>]*>.*?</A>)", RegexOptions.Singleline);