Je devais lire des fichiers de sous-titres et les découper en phrases. Après un prétraitement (comme la suppression des informations temporelles, etc. dans les fichiers .srt), la variable fullFile contenait le texte complet du fichier de sous-titres. La méthode brute ci-dessous permet de les diviser en phrases. J'ai probablement eu la chance que les phrases se terminent toujours (correctement) par un espace. Essayez d'abord cette méthode et si elle présente des exceptions, ajoutez des contrôles supplémentaires.
# Very approximate way to split the text into sentences - Break after ? . and !
fullFile = re.sub("(\!|\?|\.) ","\\1<BRK>",fullFile)
sentences = fullFile.split("<BRK>");
sentFile = open("./sentences.out", "w+");
for line in sentences:
sentFile.write (line);
sentFile.write ("\n");
sentFile.close;
Oh ! bien. Je réalise maintenant que puisque mon contenu était espagnol, je n'ai pas eu à faire face aux problèmes de "M. Smith", etc. Néanmoins, si quelqu'un veut un analyseur rapide et sale...
0 votes
Je veux faire cela, mais je veux séparer chaque fois qu'il y a un point ou un saut de ligne.