Mon objectif est de traiter la Bible d'une manière qui permette de calculer la similarité relative de deux livres quelconques de la Bible. Idéalement, deux livres devraient obtenir un score plus élevé si leurs distributions de mots sont similaires, mais aussi s'ils ont plus de phrases en commun. Par exemple, le livre de Matthieu emprunte beaucoup au livre de Marc, mais il est environ deux fois plus long, et si de nombreux passages sont dupliqués mot pour mot, l'ordre des versets dupliqués n'est pas cohérent.
Ce serait formidable si cela pouvait se faire de manière hiérarchique : les versets sont traités individuellement, puis regroupés en chapitres et enfin en livres. Pour un verset donné, il serait bon de pouvoir récupérer une liste classée de versets similaires, et ainsi de suite pour les chapitres et les livres.
Si le système pouvait accorder un crédit partiel pour des mots similaires (walk, walked, walking), ce serait également une bonne chose.
Une fois terminé, j'aimerais étendre ce système à n'importe quel ensemble de documents.
Jusqu'à présent, j'envisage de stocker chaque mot en tant que indice inversé dans une base de données de graphes, puis en utilisant des algorithmes de graphes pour évaluer la similarité des graphes, mais je ne sais pas quel algorithme utiliser pour l'évaluation ( Filtrage collaboratif ?).
Quelque chose comme Distance de Levenstein o BK-Trees peuvent être utiles (pour une correspondance floue) mais semblent inadéquates pour une solution totale. Peut-être que le prétraitement des mots par le BK-Tree et l'utilisation des résultats pour ajouter des liens supplémentaires dans le graphe peuvent aider à atteindre la capacité de correspondance floue.