Algorithme de type Instapaper

Question

Algorithme de type Instapaper

Demandé el 26 de Novembre, 2010: Quand la question a-t-elle été
5813 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Est-ce que quelqu'un d'un algorithme qui extrait le contenu d'une page Web? comme instapaper ?

Demandé el 26 de Novembre, 2010 par Joey

Answer 1

5 Réponses

Answer 2

49voto

Joel Points 11003

Il y a deux étapes pour ce Instapaper n':

Trouver la main le contenu du bloc sur la page (à l'exclusion des en-têtes, pieds de page, les menus, etc)
À partir de ce bloc de contenu de l'extrait et le format du texte

Afin de trouver le bloc de contenu (typiquement quelques html élément de bloc, comme un div contenant la clé de texte de la page de contenu) Instapaper utilise un algorithme comme celui utilisé par la lisibilité. Vous pouvez regarder la source de readability.js pour voir ce qu'il se passe, mais à la base il essaie de trouver la zone de la page avec le plus de texte/lien ratio, même s'il possède quelques autres de simples paramètres de notation (par exemple sur le dessus de ma tête, des choses comme le ratio texte / des virgules, des éléments para etc) qui vont dans les heuristiques.

Une fois que vous avez identifié le nœud racine de l'élément, avec du contenu pertinent, vous devez le formater, si vous le souhaitez, vous pouvez simplement tirer sur le nœud de l'élément contenant le texte de la source du document et de l'insérer dans la vôtre, mais en réalité, vous aurez probablement envie de supprimer des styles existants et de les appliquer à votre propre, pour une apparence standard. Si vous voulez sortir aussi beau uniquement de texte, vous pouvez utiliser Jéricho du moteur de Rendu.

update1: je devrais aussi mentionner quelque chose d'autre Instapaper n' - qui est la suite de "pagination" liens (le "prochain" ou "1", "2", "3" des liens) de l'article à leur conclusion, de sorte qu'une pièce qui peut s'étendre sur plusieurs pages de l'original sera rendu à vous en un seul document.

update2 je suis récemment tombé sur cette comparaison des algorithmes d'extraction de texte

Répondu el 26 de Novembre, 2010 par Joel (11003 Points )

Answer 3

6voto

James Points 3490

il existe une application open source qui analyse le texte d'un article à partir de n'importe quelle page Web

https://github.com/jiminoc/goose/wiki

devrait faire l'affaire

Répondu el 20 de Décembre, 2010 par James (3490 Points )

Answer 4

3voto

temo Points 31

http://cln.me fait cela. Leur api est très simple et fournit:

html nettoyé
texte à l'intérieur de la page
images dans la page
vidéos dans la page

tout ce dont vous avez besoin pour implémenter votre propre contenu propre.

Répondu el 26 de Novembre, 2010 par temo (31 Points )

Answer 5

2voto

simbo1905 Points 911

Chaudière est open source java. l'algorithme est publié dans un article scientifique afin que vous puissiez lire ses performances par rapport à d'autres algorithmes. lire autour d'elle semble être l'un des meilleurs.

Répondu el 4 de Février, 2012 par simbo1905 (911 Points )

Answer 6

1voto

Kimvais Points 12453

Si vous voulez juste tout le contenu et aucun formatage en Python

 >>> from BeautifulSoup import BeautifulSoup
>>> from urllib import urlopen
>>> soup = BeautifulSoup(urlopen("http://www.python.org/").read())
>>> contents = ''.join(soup.findAll(text=True))

fait l'affaire

Répondu el 26 de Novembre, 2010 par Kimvais (12453 Points )

Algorithme de type Instapaper

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Algorithme de type Instapaper

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: