Les balises de script et tout leur contenu peuvent-ils être supprimés du HTML avec BeautifulSoup ou dois-je utiliser des expressions régulières ou autre chose?
Réponses
Trop de publicités?
SanSS
Points
2834
Comme indiqué dans la ( documentation officielle ), vous pouvez utiliser la méthode extract
pour supprimer tout le sous-arbre correspondant à la recherche.
import BeautifulSoup
a = BeautifulSoup.BeautifulSoup("<html><body><script>aaa</script></body></html>")
[x.extract() for x in a.findAll('script')]
Andreas Jung
Points
1
Parfaitement documenté dans la documentation BeautifulSoup:
http://www.crummy.com/software/BeautifulSoup/documentation.html#Removing%20elements