DOUBLE DQN n'a aucun sens.

Question

DOUBLE DQN n'a aucun sens.

Demandé el 21 de Janvier, 2020: Quand la question a-t-elle été
503 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Pourquoi utiliser deux réseaux, s'entraîner une fois par épisode et mettre à jour le réseau cible à chaque fois ? N alors que nous pouvons utiliser un seul réseau et l'entraîner UNE FOIS à chaque épisode. N épisode ! Il n'y a littéralement aucune différence !

Demandé el 21 de Janvier, 2020 par F0urAt

Answer 1

1 Réponses

Answer 2

4voto

Brett Daley Points 334

Ce que vous décrivez est no Double DQN . Le réseau cible mis à jour périodiquement est une caractéristique essentielle de l'algorithme DQN original (et de tous ses dérivés). L'article classique de DeepMind explique pourquoi il est crucial d'avoir deux réseaux :

La deuxième modification apportée à l'apprentissage par questions en ligne visait à améliorer encore l'efficacité de l'apprentissage par questions. stabilité de notre méthode avec les réseaux neuronaux est d'utiliser un réseau séparé pour générer les cibles. y_j dans la mise à jour de l'apprentissage Q. Plus précisément, chaque C les mises à jour que nous clonons le réseau Q pour obtenir un réseau cible Q^ et utiliser Q^ pour générer le cibles d'apprentissage Q y_j pour les points suivants C les mises à jour de Q . Cette modification rend l'algorithme plus stable par rapport à l'apprentissage Q en ligne standard, où une mise à jour qui augmente Q(s_t, a_t) augmente souvent aussi Q(s_{t+1}, a) pour tous a et donc augmente également la cible y_j Ce qui peut conduire à des oscillations ou à des divergences de la politique. La génération des cibles à l'aide d'un jeu de paramètres plus ancien ajoute un délai entre le moment où une mise à jour des cibles est effectuée et celui où les cibles sont mises à jour. Q est effectuée et le moment où la mise à jour affecte les cibles y_j ce qui rend les divergences ou les oscillations beaucoup plus improbables.

Répondu el 22 de Janvier, 2020 par Brett Daley (334 Points )

DOUBLE DQN n'a aucun sens.

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

DOUBLE DQN n'a aucun sens.

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: