Même si je suis encore pour l'instant un débutant en Haskell, j'ai la conviction que l'analyse HTML en 2012 doit être fait en utilisant les sélecteurs CSS, et il semble que les bibliothèques recommandé jusqu'à présent de ne pas utiliser ce principe.
Une possibilité est HandsomeSoup, qui est construit sur le haut de HXT:
http://egonschiele.github.com/HandsomeSoup/
http://codingtales.com/2012/04/25/scraping-html-with-handsomesoup-in-haskell
Cette page sur HXT, sur lequel HandsomeSoup repose, sera également utile (vous allez avoir besoin d'getText ou profonde getText):
http://adit.io/posts/2012-04-14-working_with_HTML_in_haskell.html
Mais un autre choix est dom-sélecteur:
http://hackage.haskell.org/package/dom-selector
C'est maintenant l'alpha et son maintien à long terme pourrait être un problème. L'avantage de dom-le sélecteur est que je n'arrivais pas à des caractères unicode pour travailler avec HandsomeSoup. Ils ont travaillé hors de la boîte avec les dom-sélecteur.
Cette question est liée à:
Est-il possible d'utiliser des textes ou des ByteString sur HXT en Haskell?
dom-sélecteur est basé sur html-conduit et xml-conduit, pour qui l'entretien semble assuré.
EDIT: remarque mon nouvelle réponse sur l'objectif de l'analyse. J'ai quitté cette réponse comme c'est toujours bon sur son propre, mais je serais personnellement plutôt utiliser l'autre approche.