J'ai regardé une vidéo du cours d'introduction à l'IA d'Udacity et je n'arrive pas à me faire une idée.
Il est dit que pour une chaîne de longueur n 2 n-1 des segmentations sont possibles. Lorsque nous prenons l'hypothèse de Naive Bayes, la meilleure segmentation s * peut être défini comme celui qui maximise
produit(P(w i ))
Il est possible d'écrire le meilleur comme :
s * \= argmax s P(premier_mot) * s * (reste_des_mots)
Je comprends pourquoi ce qui précède est vrai. L'instructeur a dit qu'en raison de l'équation ci-dessus, nous n'avons pas besoin d'énumérer tous les 2 n-1 cas. Je ne parviens pas à en comprendre la raison.
Je comprends aussi que trouver P(single_word) est plus simple que d'apprendre la même prob pour les n-grammes et cela aiderait aussi au niveau du calcul.