Comment calculer la similarité entre deux documents texte ?

Question

Comment calculer la similarité entre deux documents texte ?

Demandé el 17 de Janvier, 2012: Quand la question a-t-elle été
209808 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Je cherche à travailler sur un projet NLP, dans n'importe quel langage de programmation (bien que Python soit ma préférence).

Je veux prendre deux documents et déterminer à quel point ils sont similaires.

Demandé el 17 de Janvier, 2012 par Josh Weissbock

Answer 1

5 Réponses

Answer 2

7voto

shaurya uppal Points 542

Pour la similarité syntaxique Il peut y avoir 3 façons simples de détecter la similarité.

Word2Vec
Gant
Tfidf ou countvectorizer

Pour la similarité sémantique On peut utiliser l'incorporation BERT et essayer différentes stratégies de regroupement de mots pour obtenir l'incorporation du document, puis appliquer la similarité cosinus sur l'incorporation du document.

Une méthodologie avancée peut utiliser BERT SCORE pour obtenir la similarité.

Lien vers le document de recherche : https://arxiv.org/abs/1904.09675

Répondu el 14 de Novembre, 2019 par shaurya uppal (542 Points )

Answer 3

5voto

juk Points 88

Voici une petite application pour vous aider à démarrer...

import difflib as dl

a = file('file').read()
b = file('file1').read()

sim = dl.get_close_matches

s = 0
wa = a.split()
wb = b.split()

for i in wa:
    if sim(i, wb):
        s += 1

n = float(s) / float(len(wa))
print '%d%% similarity' % int(n * 100)

Répondu el 30 de Juin, 2012 par juk (88 Points )

Answer 4

5voto

Shankar Ganesh Jayaraman Points 1060

Pour trouver la similarité des phrases avec très peu de données et pour obtenir une grande précision, vous pouvez utiliser le package python ci-dessous qui utilise des modèles BERT pré-entraînés,

pip install similar-sentences

Répondu el 16 de Avril, 2020 par Shankar Ganesh Jayaraman (1060 Points )

Answer 5

3voto

Mohammad-Ali Points 143

Si vous êtes plus intéressé par la mesure de la similarité sémantique de deux morceaux de texte, je vous suggère de jeter un coup d'oeil à ce projet gitlab . Vous pouvez l'exécuter en tant que serveur, il y a également un modèle préconstruit que vous pouvez utiliser facilement pour mesurer la similarité de deux morceaux de texte ; même s'il est principalement formé pour mesurer la similarité de deux phrases, vous pouvez toujours l'utiliser dans votre cas.il est écrit en java mais vous pouvez l'exécuter comme un service RESTful.

Une autre option est également Similitude DKPro qui est une bibliothèque contenant divers algorithmes pour mesurer la similarité des textes. Cependant, elle est également écrite en java.

exemple de code :

// this similarity measure is defined in the dkpro.similarity.algorithms.lexical-asl package
// you need to add that to your .pom to make that example work
// there are some examples that should work out of the box in dkpro.similarity.example-gpl 
TextSimilarityMeasure measure = new WordNGramJaccardMeasure(3);    // Use word trigrams

String[] tokens1 = "This is a short example text .".split(" ");   
String[] tokens2 = "A short example text could look like that .".split(" ");

double score = measure.getSimilarity(tokens1, tokens2);

System.out.println("Similarity: " + score);

Répondu el 1 de Février, 2018 par Mohammad-Ali (143 Points )

Answer 6

2voto

Ekaterina Gorchinsky Points 11

Vous pouvez essayer ce service en ligne pour la similarité des documents en cosinus. http://www.scurtu.it/documentSimilarity.html

import urllib,urllib2
import json
API_URL="http://www.scurtu.it/apis/documentSimilarity"
inputDict={}
inputDict['doc1']='Document with some text'
inputDict['doc2']='Other document with some text'
params = urllib.urlencode(inputDict)    
f = urllib2.urlopen(API_URL, params)
response= f.read()
responseObject=json.loads(response)  
print responseObject

Répondu el 12 de Février, 2013 par Ekaterina Gorchinsky (11 Points )

Comment calculer la similarité entre deux documents texte ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment calculer la similarité entre deux documents texte ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: