Je sais comment rendre le softmax stable en ajoutant à chaque élément -max _i x_i. Cela évite le débordement et le débordement inférieur. Maintenant, prendre le logarithme de cela peut provoquer un débordement. Le log softmax(x) peut évaluer à zéro, conduisant à -infini.
Je ne suis pas sûr comment le résoudre. Je sais que c'est un problème courant. J'ai lu plusieurs réponses à ce sujet, que je n'ai pas comprises. Mais je suis toujours confus sur comment résoudre ce problème.
PS : Si vous fournissez un exemple simple, ce serait génial.