Étant donné une page Web d'article de nouvelles (à partir de n'importe quelle source de nouvelles majeure telle que Times ou Bloomberg), je veux identifier le contenu principal de l'article sur cette page et jeter les autres éléments divers tels que les publicités, les menus, les barres latérales, les commentaires des utilisateurs.
Quelle est une façon générique de faire cela qui fonctionnera sur la plupart des principaux sites d'actualités?
Quels sont les bons outils ou bibliothèques pour l'exploration de données? (de préférence basé sur python)