S'il s'agit d'une question de programmation, je vous suggère d'écrire votre propre expression régulière pour analyser tout le contenu récupéré. Les balises cibles sont IMG et A pour le HTML standard. Pour JAVA,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
ce qui, avec les classes Pattern et Matcher, devrait permettre de détecter le début des balises. Ajoutez la balise LINK si vous voulez aussi du CSS.
Toutefois, ce n'est pas aussi facile que vous l'avez peut-être pensé au départ. De nombreuses pages Web ne sont pas bien formées. L'extraction programmatique de tous les liens qu'un être humain peut "reconnaître" est vraiment difficile si vous devez tenir compte de toutes les expressions irrégulières.
Bonne chance !
2 votes
Crawlmysite.in - site non existant