Supposons que nous modifions la fonction softmax de telle sorte que les activations de sortie soient données par
où c
est une constante positive. Remarquez que c=1
correspond à la fonction softmax standard. Mais si nous utilisons une valeur différente de c
, nous obtenons une fonction différente, qui est néanmoins qualitativement assez similaire à la fonction softmax. En particulier, montrez que les activations de sortie forment une distribution de probabilité, tout comme pour la softmax habituelle. Supposons que nous permettions à c
de devenir grand, c'est-à-dire, c→∞
. Quelle est la valeur limite des activations de sortie a^L_j
? Après avoir résolu ce problème, il devrait vous être clair pourquoi nous considérons que la fonction c=1
est une version "adoucie" de la fonction maximum. C'est l'origine du terme "softmax". Vous pouvez suivre les détails depuis cette source (équation 83).
14 votes
La fonction n'est pas coûteuse à calculer en raison des exposants, mais parce que vous devez calculer chaque qj. L'exponentiation est bon marché par rapport à la quantité totale de calcul nécessaire.
3 votes
Quel type de transformée Z mentionnez-vous? Le sens du traitement du signal du terme ne convient pas ici, et le remplacement des valeurs par leur score Z donne une sortie négative si l'entrée est en dessous de la moyenne.
0 votes
Voir aussi: Stats.SE