Je suis en train d'utiliser solr, j'utilise StandardTokenizerFactory dans le champ de texte mais je ne veux pas diviser sur le trait de soulignement. Dois-je utiliser un autre toknizer comme PatternTokenizerFactory ou puis-je le faire avec StandardTokenizerFactory ? car j'ai besoin de la même fonctionnalité de StandardTokenizerFactory mais sans diviser sur le trait de soulignement.
Réponses
Trop de publicités?Je ne pense pas que vous puissiez le faire avec StandardTokenizerFactory. Une solution consiste d'abord à remplacer les tirets bas par quelque chose que StandardTokenizerFactory ne traitera pas et que vos documents ne contiendront pas autrement. Par exemple, vous pouvez d'abord remplacer _
par QQ
partout avec PatternReplaceCharFilterFactory et passer par StandardTokenizerFactory, puis remplacer QQ
par _
en utilisant PatternReplaceFilterFactory. Voici la définition du type de champ pour le faire :
...
Et voici une capture d'écran de ce qui se passe :