J'ai des problèmes pour accéder au lien rss qui indique au navigateur où se trouve le rss pour le site. Le lien se trouve dans la section <head>
de la balise html, voici un exemple de ce à quoi ressemble le lien.
<link rel="alternate" type="application/rss+xml" title="CNN - Top Stories [RSS]" href="http://rss.cnn.com/rss/cnn_topstories.rss" />
Mon approche initiale consistait à traiter le site comme un fichier XML et à examiner les balises, mais la plupart des sites ont un nombre arbitraire d'éléments de type <meta>
les étiquettes qui oublient d'avoir une fin />
Ainsi, le <link>
que je recherche devient un enfant d'une variable aléatoire <meta>
étiquette.
Je pense maintenant à traiter le site comme une chaîne de caractères et à rechercher les éléments suivants <link>
mais cela pose des problèmes car la balise <link>
peut avoir ses attributs dans n'importe quel ordre. Bien sûr, je peux contourner ce problème, mais je préférerais quelque chose d'un peu plus propre que de chercher type="application/rss+xml"
puis à gauche et à droite de celui-ci pour le premier href
qu'il voit.