0 votes

Outil ou méthodes pour créer automatiquement des liens contextuels dans un grand corpus de contenu ?

Voici le scénario de base : je dispose d'un corpus de 100 000 articles de journaux. Au minimum, ils auront tous un titre bien défini et un certain volume de contenu.

Ce que je veux faire, c'est trouver des passages de texte dans les articles qui devraient être liés à d'autres articles.

Ainsi, si l'article Foo contient une partie de texte telle que "Les élèves de 8e année sont encouragés à lire les œuvres de Jean-Paul Sartre" et que l'article Bar est intitulé (et concerne) "Les œuvres importantes de Jean-Paul Sartre", j'aimerais créer automatiquement ce lien HTML de Foo à Bar dans le texte de Foo.

1voto

bbqchickenrobot Points 220

Vous devez vous poser une question avant d'ajouter les liens. Quel avantage pour les utilisateurs souhaitez-vous obtenir en faisant cela ? Vous souhaitez probablement améliorer la navigabilité de votre site. Peut-être est-il préférable de créer un moyen plus facile d'ajouter des liens vers d'anciens articles dans le formulaire utilisé pour en soumettre de nouveaux. Peut-être est-il possible d'ajouter une fonction de "recherche en un clic du texte sélectionné". Peut-être pouvez-vous ajouter une fonctionnalité de type wiki qui permet aux utilisateurs de proposer un lien pour le texte sélectionné. Vous souhaitez probablement ajouter des liens vers des articles connexes (générés par un système de balisage ou d'exploration de texte) sous les articles.

Quelques problèmes potentiels avec l'ajout de liens entièrement automatisé : Vous devrez peut-être mettre en œuvre un bon algorithme de désambiguïsation du sens des mots pour éviter de dérouter, voire d'irriter, l'utilisateur en plaçant de mauvais liens automatiques à l'aide d'une regex (ou d'une simple correspondance de sous-chaîne).

Comme le nombre d'articles est important, vous ne voulez pas générer le html pour les liens supplémentaires à chaque requête, mettez-le en cache à la place.

Vous devez prendre une décision concernant les titres en double ou les titres qui contiennent un autre titre comme sous-chaîne (soit vous prenez le titre le plus long, soit vous créez un lien vers l'article le plus récent, soit vous préférez un article de la même catégorie).

Version TLDR : trouver des solutions alternatives qui fournissent la fonctionnalité souhaitée aux utilisateurs.

0voto

tvanfosson Points 268301

Ce que vous recherchez, ce sont des outils d'exploration de texte. Vous trouverez plus d'informations et de liens à l'adresse suivante http://en.wikipedia.org/wiki/Text_mining . Vous pouvez également consulter Lucene et ses ports à l'adresse suivante http://lucene.apache.org . L'idée de base de ces outils est de trouver un ensemble d'articles similaires à partir de l'article (ou du titre) en question. Vous pouvez rechercher diverses propriétés de l'article, notamment les titres, le contenu ou les deux. Un système de marquage à la Delicious (ou Stackoverflow) pourrait également être utile. Plutôt que de créer à l'avance les liens entre les articles, vous présenteriez les articles pertinents dans une interface semblable à celle des questions connexes, à droite de cette page.

Si vous vouliez trouver et lier un texte spécifique dans chaque article, je pense que vous auriez besoin de faire un certain prétraitement pour sélectionner les phrases pertinentes à utiliser. Même dans ce cas, je pense qu'il serait très difficile de ne pas rater des choses à cause de la ponctuation/des fautes d'orthographe ou de ne pas inclure des liens non pertinents pour les mêmes raisons.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X