Cela dépend de votre définition de semblable.
La distance de vérification de l'algorithme est l'algorithme standard (langue latine) dictionnaire des suggestions, et peut travailler sur l'ensemble des textes. Les deux textes sont identiques, si elles ont fondamentalement les mêmes mots (eh lettres) dans le même ordre. Les deux critiques de livres seraient assez similaires:
1) "C'est un grand livre"
2) "ce ne sont pas de grands livres"
(Le nombre de lettres à supprimer, insérer, supprimer ou modifier à son tour (2) dans (1) est appelée la distance d'édition'.)
Pour mettre en œuvre ce que vous voulez de visiter chaque révision de la programmation. C'est peut-être pas aussi coûteux que ça sonne, et si il est trop coûteux, vous pourriez faire la comparisions en tâche de fond et de stocker les n-plus semblable à un champ de base de données elle-même.
Une autre approche consiste à comprendre quelque chose de la structure de (latin) langues. Si vous bande de manches (non-capitialised ou cité) les mots, et attribuer des poids aux mots (ou préfixes) qui sont communes ou unique, vous pouvez faire un Bayesianesque comparaison. Les deux à la suite des critiques de livres pourraient être simiplied et trouvé pour être semblable:
3) "La révolution française a été bla bla de la Guerre et de la Paix bla bla de la France." -> France/français(2) Révolution(1) Guerre(1) la Paix(1) (à noter qu'un dictionnaire a été utilisé pour combiner la France et les français)
4) "Ce livre est bla bla, une révolution dans la cuisine française." -> La France(1) Révolution(1)
Pour mettre en œuvre ce que vous voulez afin d'identifier les "mots-clés" dans une revue quand il a été créé ou mis à jour, et de trouver des similaires examens utiliser ces mots-clés dans la clause where d'une requête (idéalement, 'full text' la recherche de si la base de données prend en charge), avec peut-être un post-traitement des résultats-ensemble de la notation des candidats trouvés.
Les livres ont aussi des catégories sont des thrillers fixé en France similaires aux études historiques de la France, et ainsi de suite? Méta-données au-delà de titre et le texte pourrait être utile pour garder les résultats les plus pertinents.