L'état initial est-il sélectionné de manière aléatoire dans les environnements d'apprentissage par renforcement comme OpenAI gym. En d'autres termes, la commande env.reset() entraîne-t-elle un état initial sélectionné au hasard ou un état initial spécifique ?