BeautifulSoup est un excellent moyen d'aller pour le code HTML de grattage. Mon emploi précédent m'avait fait beaucoup de raclage et je souhaite que je savais à propos de BeautifulSoup quand j'ai commencé. C'est comme le DOM avec beaucoup plus d'options utiles et c'est beaucoup plus pythonic. Si vous voulez essayer Ruby ils ont porté BeautifulSoup l'appelant RubyfulSoup mais il n'a pas été mis à jour en temps.
D'autres outils utiles sont HTMLParser ou sgmllib.SGMLParser qui font partie de la bibliothèque standard de Python. Ces travaux par appel de méthodes à chaque fois que vous entrer/sortir d'une balise et la rencontre de texte html. Ils sont comme des Expatriés si vous êtes au courant. Ces bibliothèques sont particulièrement utiles si vous allez à analyser de très gros fichiers et la création d'une arborescence DOM serait long et coûteux.
Les expressions régulières ne sont pas très nécessaire. BeautifulSoup gère les expressions régulières donc, si vous avez besoin de leur puissance, vous pouvez utiliser celui-là. Je dis aller avec BeautifulSoup, sauf si vous avez besoin de vitesse et une plus petite empreinte mémoire. Si vous trouvez un meilleur analyseur HTML sur Python, laissez-moi savoir.