J'ai du mal à faire en sorte qu'une simple URL soit correctement tokenisée afin que vous puissiez la rechercher comme prévu.
J'indexe " http://news.bbc.co.uk/sport1/hi/football/internationals/8196322.stm "avec le StandardAnalyzer et il tokenise la chaîne comme suit (sortie de débogage) :
(http,0,4,type=<ALPHANUM>)
(news.bbc.co.uk,7,21,type=<HOST>)
(sport1/hi,22,31,type=<NUM>)
(football,32,40,type=<ALPHANUM>)
(internationals/8196322.stm,41,67,type=<NUM>)
En général, tout semble correct, le http lui-même, puis le nom d'hôte, mais le problème semble venir des barres obliques. Il faut les considérer comme des mots séparés.
Que dois-je faire pour corriger cela ?
Merci
P.S. J'utilise Lucene.NET mais je ne pense pas que cela fasse une grande différence en ce qui concerne les réponses.