Est-ce que quelqu'un d'un algorithme qui extrait le contenu d'une page Web? comme instapaper ?
Réponses
Trop de publicités?Il y a deux étapes pour ce Instapaper n':
- Trouver la main le contenu du bloc sur la page (à l'exclusion des en-têtes, pieds de page, les menus, etc)
- À partir de ce bloc de contenu de l'extrait et le format du texte
Afin de trouver le bloc de contenu (typiquement quelques html élément de bloc, comme un div contenant la clé de texte de la page de contenu) Instapaper utilise un algorithme comme celui utilisé par la lisibilité. Vous pouvez regarder la source de readability.js pour voir ce qu'il se passe, mais à la base il essaie de trouver la zone de la page avec le plus de texte/lien ratio, même s'il possède quelques autres de simples paramètres de notation (par exemple sur le dessus de ma tête, des choses comme le ratio texte / des virgules, des éléments para etc) qui vont dans les heuristiques.
Une fois que vous avez identifié le nœud racine de l'élément, avec du contenu pertinent, vous devez le formater, si vous le souhaitez, vous pouvez simplement tirer sur le nœud de l'élément contenant le texte de la source du document et de l'insérer dans la vôtre, mais en réalité, vous aurez probablement envie de supprimer des styles existants et de les appliquer à votre propre, pour une apparence standard. Si vous voulez sortir aussi beau uniquement de texte, vous pouvez utiliser Jéricho du moteur de Rendu.
update1: je devrais aussi mentionner quelque chose d'autre Instapaper n' - qui est la suite de "pagination" liens (le "prochain" ou "1", "2", "3" des liens) de l'article à leur conclusion, de sorte qu'une pièce qui peut s'étendre sur plusieurs pages de l'original sera rendu à vous en un seul document.
update2 je suis récemment tombé sur cette comparaison des algorithmes d'extraction de texte
il existe une application open source qui analyse le texte d'un article à partir de n'importe quelle page Web
https://github.com/jiminoc/goose/wiki
devrait faire l'affaire
http://cln.me fait cela. Leur api est très simple et fournit:
- html nettoyé
- texte à l'intérieur de la page
- images dans la page
- vidéos dans la page
tout ce dont vous avez besoin pour implémenter votre propre contenu propre.
Chaudière est open source java. l'algorithme est publié dans un article scientifique afin que vous puissiez lire ses performances par rapport à d'autres algorithmes. lire autour d'elle semble être l'un des meilleurs.