Les gens font des recherches sur mon site web et certaines de ces recherches sont celles-là :
tapoktrpasawe
qweasd qwa as
ae qwo ak kqw
qwe qwe qwe a
Ma question est la suivante : existe-t-il un moyen de détecter les chaînes de caractères similaires à celles ci-dessus ?
Je suppose qu'il est impossible de les détecter à 100%, mais toute solution sera la bienvenue :)
edit : Je veux dire les "recherches de charabia". Par exemple, certaines personnes recherchent des chaînes comme "asdqweasdqw", "paykaprkg", "iwepr wepr ow" dans mon moteur de recherche, et je veux détecter les recherches en charabia.
Peu importe si le résultat de la recherche sera 0 ou autre. Je ne peux pas utiliser cette logique.
Certaines nouvelles marques ou nouveaux produits seront ignorés si je les considère comme des "mots ordinaires".
Merci pour votre aide
4 votes
Qu'essayez-vous exactement de détecter ? Nous avons besoin de plus d'informations si nous voulons vous aider.
0 votes
Même Google n'a pas donné de résultat pour ce put#@@. Alors quel résultat donnez-vous ? :-)
0 votes
Vous pourriez peut-être mettre un vérificateur d'orthographe dans votre formulaire de recherche.
8 votes
Il n'y a aucun moyen de détecter avec une machine si une chaîne de recherche a un sens ou non. S'ils saisissent un non-sens, ils ne trouveront rien - n'est-ce pas suffisant ?
0 votes
J'allais suggérer de calculer une somme pondérée où les caractères consécutifs qui sont adjacents sur le clavier ont un poids plus fort, et d'échelonner le résultat en fonction de la longueur de la chaîne, mais cela ne permettrait de repérer qu'un type spécifique de saisie de charabia.
0 votes
Doug Kavendeck, vous pouvez utiliser une idée similaire dans la direction opposée (regardez beaucoup de texte anglais, trouvez quels caractères ont tendance à être adjacents), puis utilisez cela pour estimer la probabilité qu'un texte soit réellement anglais. C'est simple et cela fonctionne raisonnablement bien.
1 votes
Pourquoi devez-vous faire cela ? Les recherches en charabia représentent-elles une part importante du trafic de recherche ou imposent-elles une charge notable à la base de données ?
0 votes
Ahe - Avez-vous déjà converti la réponse python de @rrenaud en PHP ?
1 votes
J'abandonnerais l'idée parce que la détection des déchets nécessitera probablement plus de puissance de calcul que l'exécution d'une requête de déchets (ce qui est techniquement correct et peut même être ce que l'utilisateur veut parce que ). ordures est assez subjectif, je suppose).