Quelle est la différence entre le Q-learning et le SARSA ?

Question

Quelle est la différence entre le Q-learning et le SARSA ?

Demandé el 27 de Juillet, 2011: Quand la question a-t-elle été
73128 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Même si je sais que SARSA est conforme à la politique, tandis que Apprentissage par questions-réponses (Q-learning) est hors politique, il est difficile (pour moi) de voir une différence entre ces deux algorithmes lorsque l'on examine leurs formules.

Selon le livre Apprentissage par renforcement : Une introduction (par Sutton et Barto). Dans l'algorithme SARSA, étant donné une politique, la fonction action-valeur Q correspondante (dans l'état s et l'action a, au pas de temps t), c'est-à-dire Q(s _t , a _t ), peut être mis à jour comme suit

Q(s _t , a _t ) = Q(s _t , a _t ) + *(r _t + *Q(s) _t+1 , a _t+1 ) - Q(s _t , a _t ))

En revanche, l'étape de mise à jour de l'algorithme d'apprentissage Q est la suivante

Q(s _t , a _t ) = Q(s _t , a _t ) + *(r _t + *max _a Q(s _t+1 , a) - Q(s _t , a _t ))

qui peut également s'écrire

Q(s _t , a _t ) = (1 - ) * Q(s _t , a _t ) + * (r _t + *max _a Q(s _t+1 , a))

où (gamma) est le facteur d'actualisation et r _t est la récompense reçue de l'environnement à l'étape t.

La différence entre ces deux algorithmes réside-t-elle dans le fait que SARSA ne recherche que la valeur de la politique suivante alors que Q-learning recherche la valeur de la politique suivante ? maximum valeur de la police ?

TLDR (et ma propre réponse)

Merci à tous ceux qui ont répondu à cette question depuis que je l'ai posée. J'ai fait une repo github jouer avec le Q-Learning et comprendre empiriquement quelle est la différence. Tout se résume à la façon dont vous choisissez la meilleure action suivante qui, d'un point de vue algorithmique, peut être un moyen , max o meilleur selon la manière dont vous avez choisi de la mettre en œuvre.

L'autre différence principale est la suivante quand cette sélection se produit (par ex, en ligne vs hors ligne ) et comment et pourquoi cela affecte l'apprentissage. Si vous lisez ces lignes en 2019 et que vous êtes plutôt du genre à mettre la main à la pâte, le meilleur moyen de comprendre les différences est probablement de jouer avec un problème de jouet RL.

Une dernière important Il est à noter que Suton & Barto, ainsi que Wikipedia, ont souvent des mixte, confus o erroné des représentations de formules en ce qui concerne les état suivant action et récompense optimales/maximales :

r(t+1)

est en fait

r(t)

Demandé el 27 de Juillet, 2011 par Alex

Answer 1

3 Réponses

Answer 2

1voto

Beyhan Gül Points 578

La seule différence entre SARSA et Qlearning est que SARSA prend la prochaine action sur la base de la politique actuelle tandis que Qlearning prend l'action avec l'utilité maximale de l'état suivant.

Répondu el 3 de Octobre, 2019 par Beyhan Gül (578 Points )

Answer 3

0voto

Aref Yelghi Points 1

Je n'ai lu aucun livre, mais je vois ce qu'ils impliquent. q apprendre se concentrer sur la (grille d'action) L'apprentissage SARSA se concentre sur le (état à état) et observe la liste d'actions de s et s', puis met à jour la (grille d'état à état).

Répondu el 12 de Novembre, 2021 par Aref Yelghi (1 Points )

Answer 4

0voto

cookiemonster Points 1

Les agents SARSA et Q-learnig suivent la politique e-greedy pour interagir avec l'environnement.

L'agent SARSA met à jour sa fonction Q en utilisant la valeur Q du pas de temps suivant et l'action prévue par la politique (le plus souvent gourmande, mais une action aléatoire est également acceptée). La politique exécutée et la politique mise à jour sont identiques.

L'agent d'apprentissage Q met à jour sa fonction Q avec uniquement l'action qui apporte la valeur Q maximale de l'état suivant (avidité totale par rapport à la politique). La politique exécutée et la politique mise à jour sont différentes.

Par conséquent, SARSA est conforme à la politique, tandis que l'apprentissage Q est contraire à la politique.

Répondu el 29 de Janvier, 2023 par cookiemonster (1 Points )

Quelle est la différence entre le Q-learning et le SARSA ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Quelle est la différence entre le Q-learning et le SARSA ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: