Sigmoid
plus précisément, est utilisé comme fonction de déclenchement pour les 3 portes (entrée, sortie, oubli) dans le système de gestion de l'information. LSTM
Puisqu'il émet une valeur entre 0 et 1, il peut soit ne laisser aucun flux, soit laisser un flux complet d'informations à travers les portes. D'autre part, pour surmonter le problème du gradient évanescent, nous avons besoin d'une fonction dont la dérivée seconde peut se maintenir sur une longue période avant de devenir nulle. Tanh
est une bonne fonction avec la propriété ci-dessus.
Une bonne unité neuronale doit être bornée, facilement différentiable, monotone (bonne pour l'optimisation convexe) et facile à manipuler. Si vous considérez ces qualités, alors je crois que vous pouvez utiliser ReLU
à la place de tanh
car elles sont de très bonnes alternatives l'une à l'autre. Mais avant de faire un choix pour les fonctions d'activation, vous devez savoir quels sont les avantages et les inconvénients de votre choix par rapport aux autres. Je vais décrire brièvement certaines des fonctions d'activation et leurs avantages.
Sigmoïde
Expression mathématique : sigmoid(z) = 1 / (1 + exp(-z))
Dérivée de premier ordre : sigmoid'(z) = -exp(-z) / 1 + exp(-z)^2
Avantages :
(1) Sigmoid function has all the fundamental properties of a good activation function.
Tanh
Expression mathématique : tanh(z) = [exp(z) - exp(-z)] / [exp(z) + exp(-z)]
Dérivée de premier ordre : tanh'(z) = 1 - ([exp(z) - exp(-z)] / [exp(z) + exp(-z)])^2 = 1 - tanh^2(z)
Avantages :
(1) Often found to converge faster in practice
(2) Gradient computation is less expensive
Hard Tanh
Expression mathématique : hardtanh(z) = -1 if z < -1; z if -1 <= z <= 1; 1 if z > 1
Dérivée de premier ordre : hardtanh'(z) = 1 if -1 <= z <= 1; 0 otherwise
Avantages :
(1) Computationally cheaper than Tanh
(2) Saturate for magnitudes of z greater than 1
ReLU
Expression mathématique : relu(z) = max(z, 0)
Dérivée de premier ordre : relu'(z) = 1 if z > 0; 0 otherwise
Avantages :
(1) Does not saturate even for large values of z
(2) Found much success in computer vision applications
Leaky ReLU
Expression mathématique : leaky(z) = max(z, k dot z) where 0 < k < 1
Dérivée de premier ordre : relu'(z) = 1 if z > 0; k otherwise
Avantages :
(1) Allows propagation of error for non-positive z which ReLU doesn't
Ce site papier explique une fonction d'activation amusante. Vous pouvez envisager de le lire.
2 votes
Ni la porte d'entrée ni la porte de sortie n'utilisent la fonction tanh pour l'activation. Je suppose qu'il y a un malentendu. Les deux portes d'entrée (
i_{t}
) et la porte de sortie (o_{t}
) utilisent la fonction sigmoïde. Dans le réseau LSTM, la fonction d'activation tanh est utilisée pour déterminer les valeurs des états cellulaires candidats (état interne) (\tilde{C}_{t}
) et mettre à jour l'état caché (h_{t}
).