Lors de l'utilisation de la normalisation de lots et de l'abandon TensorFlow (plus précisément à l'aide de la contrib.couches) ai-je besoin d'être inquiet au sujet de la commande?
Il semble possible que si j'utilise l'abandon suivie immédiatement par la normalisation de lots il y a peut-être des ennuis. Par exemple, si le passage dans le lot normalisation des trains à l'échelle plus large des numéros de la formation de sorties, mais alors ce changement est appliqué à la plus petite (en raison de la compensation pour avoir plus de sorties) chiffres de l'échelle, sans abandon pendant les essais, alors que la maj est peut-être éteint. Le TensorFlow lot de normalisation de la couche de compenser automatiquement pour cela? Ou n'est-ce pas se produire pour une raison que je suis absent?
Aussi, existe-il d'autres pièges à regarder dehors pour dans lors de l'utilisation de ces deux ensemble? Par exemple, en supposant que je suis en utilisant dans l'ordre correct, en ce qui concerne la ci-dessus (en supposant qu'il est un bon ordre), pourrait-il y avoir de la difficulté avec l'utilisation de deux lots de normalisation et d'abandon sur plusieurs couches successives? Je n'ai pas immédiatement voir un problème avec ça, mais j'ai peut-être raté quelque chose.
Merci beaucoup!
Mise à JOUR:
Un test expérimental semble suggérer que la commande n'a d'importance. J'ai couru le même réseau deux fois avec seulement le lot de norme et d'abandon inverse. Lors de l'abandon scolaire est avant que le lot de norme, de la validation de la perte semble être à la hausse comme à la formation de la perte est à la baisse. Ils sont en train de descendre dans les autres cas. Mais dans mon cas, les mouvements sont lents, donc les choses peuvent changer après plus de formation et il suffit d'un seul test. Un plus définitif et informé de la réponse sera appréciée.