Vous pourriez créer un nouveau tokenizer pour le russe (et d'autres langues) en utilisant cette fonction :
def russianTokenizer(text):
result = text
result = result.replace('.', ' . ')
result = result.replace(' . . . ', ' ... ')
result = result.replace(',', ' , ')
result = result.replace(':', ' : ')
result = result.replace(';', ' ; ')
result = result.replace('!', ' ! ')
result = result.replace('?', ' ? ')
result = result.replace('\"', ' \" ')
result = result.replace('\'', ' \' ')
result = result.replace('(', ' ( ')
result = result.replace(')', ' ) ')
result = result.replace(' ', ' ')
result = result.replace(' ', ' ')
result = result.replace(' ', ' ')
result = result.replace(' ', ' ')
result = result.strip()
result = result.split(' ')
return result
et l'appeler de cette façon :
text = ' , Google SSL;'
tokens = russianTokenizer(text)
0 votes
Je veux faire cela, mais je veux séparer chaque fois qu'il y a un point ou un saut de ligne.