Comment faire du détourage de gradient dans pytorch ?

Question

Comment faire du détourage de gradient dans pytorch ?

Demandé el 15 de Février, 2019: Quand la question a-t-elle été
60459 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Quelle est la manière correcte d'effectuer l'écrêtage du gradient dans pytorch ?

J'ai un problème de gradients explosifs, et je dois programmer pour le contourner.

Demandé el 15 de Février, 2019 par Gulzar

0 votes

discuss.pytorch.org/t/proper-way-to-do-gradient-clipping/191

Commenté el 15 de Février, 2019 par pierrom

4 votes

@pierrom Merci. J'ai trouvé ce fil moi-même. J'ai pensé que le fait de le demander ici éviterait à tous ceux qui viennent après moi et qui cherchent une réponse rapide sur Google de devoir lire toute la discussion (que je n'ai pas encore terminée moi-même), et qu'ils obtiendraient simplement une réponse rapide, à la manière de stackoverflow. Aller sur les forums pour trouver des réponses me rappelle 1990. Si personne d'autre ne poste la réponse avant moi, je le ferai dès que je l'aurai trouvée.

Commenté el 15 de Février, 2019 par Gulzar

Answer 1

3 Réponses

Answer 2

120voto

Rahul Points 6

Un exemple plus complet

optimizer.zero_grad()        
loss, hidden = model(data, hidden, targets)
loss.backward()

torch.nn.utils.clip_grad_norm_(model.parameters(), args.clip)
optimizer.step()

Source : https://github.com/pytorch/pytorch/issues/309

Répondu el 10 de Mai, 2019 par Rahul (6 Points )

1 votes

Pourquoi est-ce plus complet ? Je vois le plus de votes, mais je ne comprends pas vraiment pourquoi c'est mieux. Pouvez-vous m'expliquer ?

Commenté el 28 de Octobre, 2020 par Gulzar

10 votes

Cela suit simplement un modèle populaire, où l'on peut insérer torch.nn.utils.clip_grad_norm_(model.parameters(), args.clip) entre la perte.backward() et l'optimiseur.step()

Commenté el 29 de Octobre, 2020 par Rahul

Answer 3

56voto

a_guest Points 5059

clip_grad_norm (qui est en fait déprécié au profit de l'option clip_grad_norm_ en suivant la syntaxe plus cohérente d'une terminaison _ lorsque la modification en place est effectuée) clive la norme de la global gradient en concaténant tous les paramètres passés à la fonction, comme on peut le voir dans l'exemple suivant la documentation :

La norme est calculée sur tous les gradients ensemble, comme s'ils étaient concaténés en un seul vecteur. Les gradients sont modifiés sur place.

D'après votre exemple, il semble que vous vouliez clip_grad_value_ à la place, qui a une syntaxe similaire et modifie également les gradients in-place :

clip_grad_value_(model.parameters(), clip_value)

Une autre option consiste à enregistrer un crochet arrière . Il prend le gradient actuel en entrée et peut retourner un tenseur qui sera utilisé à la place du gradient précédent, c'est-à-dire en le modifiant. Ce hook est appelé chaque fois qu'un gradient a été calculé, c'est-à-dire qu'il n'y a pas besoin d'écrêter manuellement une fois que le hook a été enregistré :

for p in model.parameters():
    p.register_hook(lambda grad: torch.clamp(grad, -clip_value, clip_value))

Répondu el 21 de Février, 2019 par a_guest (5059 Points )

Answer 4

10voto

Gulzar Points 620

Lire à travers la discussion du forum a donné ça :

clipping_value = 1 # arbitrary value of your choosing
torch.nn.utils.clip_grad_norm(model.parameters(), clipping_value)

Je suis sûr qu'il y a plus de profondeur que ce simple extrait de code.

Répondu el 15 de Février, 2019 par Gulzar (620 Points )

Comment faire du détourage de gradient dans pytorch ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment faire du détourage de gradient dans pytorch ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: