Tout d'abord, je voudrais ajouter que vous devez être très prudent lorsque vous utilisez une forme d'algorithme de correspondance phonétique/floue, car ce type de logique est exactement cela, floue ou, pour le dire plus simplement, potentiellement inexacte. C'est particulièrement vrai lorsqu'il s'agit de faire correspondre des noms de sociétés.
Une bonne approche consiste à chercher à corroborer d'autres données, telles que des informations sur l'adresse, les codes postaux, les numéros de téléphone, les coordonnées géographiques, etc. Cela permettra de confirmer la probabilité d'une correspondance exacte de vos données.
Il existe toute une série de questions liées à la comparaison de données entre entreprises, trop nombreuses pour être abordées ici. Correspondance de noms de sociétés dans mon blog (également un article actualisé ), mais en résumé, les questions clés sont les suivantes :
- Regarder l'ensemble de la chaîne n'est pas utile car la partie la plus importante d'un nom de société n'est pas nécessairement au début du nom de la société. de la société. Par exemple, "The Proctor and Gamble Company" ou "United States Federal Réserve fédérale des États-Unis ".
- Les abréviations sont courantes dans les noms de sociétés, par exemple HP, GM, GE, P&G, D&B, etc.
- Certaines entreprises orthographient délibérément leur nom de manière incorrecte dans le cadre de leur stratégie de leur image de marque et pour se différencier des autres entreprises.
Il est facile de faire correspondre des données exactes, mais faire correspondre des données non exactes peut prendre beaucoup plus de temps et je vous suggère de réfléchir à la manière dont vous allez valider les correspondances non exactes pour vous assurer qu'elles sont de qualité acceptable.
Avant de créer Match2Lists.com, nous passions un temps fou à valider les correspondances floues. Dans Match2Lists, nous avons incorporé un puissant outil de visualisation nous permettant d'examiner les correspondances non exactes, ce qui a changé la donne en termes de validation des correspondances, réduisant nos coûts et nous permettant de fournir des résultats beaucoup plus rapidement.
Bonne chance !
0 votes
Désolé pour les erreurs d'édition, j'ai oublié le deuxième lien.
0 votes
La réponse que je propose ci-dessous élimine la nécessité d'une recherche floue et permet d'effectuer une recherche indexée pour n'importe quelle partie de nom - consultez-la !
0 votes
C'est un mystère pour moi que certaines fonctionnalités de base ne soient pas intégrées dans un projet open source, et que même des produits/entreprises naissent à cause de cela (comme elastic search).