TensorFlow - régularisation avec L2 perte, de façon à s'appliquer à tous les poids, pas seulement les derniers?

Question

TensorFlow - régularisation avec L2 perte, de façon à s'appliquer à tous les poids, pas seulement les derniers?

Demandé el 9 de Juillet, 2016: Quand la question a-t-elle été
45131 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis à jouer avec une ANN qui est une partie de Udacity DeepLearning cours.

J'ai une mission qui consiste à introduire la généralisation du réseau avec un caché ReLU calque à l'aide de L2 perte. Je me demande comment l'introduire, de sorte que TOUS les poids sont pénalisés, non seulement le poids de la couche de sortie.

Code pour réseau sans généralisation est au bas de la poste (code pour exécuter la formation est hors de la portée de la question).

De manière évidente de l'introduction de la L2 est de remplacer le calcul de la perte de quelque chose comme ceci (si le bêta est de 0,01):

loss = tf.reduce_mean( tf.nn.softmax_cross_entropy_with_logits(out_layer, tf_train_labels) + 0.01*tf.nn.l2_loss(out_weights))

Mais, dans ce cas, il prendra en compte les valeurs de la couche de sortie du poids. Je ne suis pas sûr, comment pouvons-nous correctement pénaliser le poids qui entrent DANS le caché ReLU couche. Est-il nécessaire ou de l'introduction de la pénalisation de la couche de sortie, sera en quelque sorte de garder cachés poids à vérifier aussi?

#some importing
from __future__ import print_function
import numpy as np
import tensorflow as tf
from six.moves import cPickle as pickle
from six.moves import range

#loading data
pickle_file = '/home/maxkhk/Documents/Udacity/DeepLearningCourse/SourceCode/tensorflow/examples/udacity/notMNIST.pickle'

with open(pickle_file, 'rb') as f:
  save = pickle.load(f)
  train_dataset = save['train_dataset']
  train_labels = save['train_labels']
  valid_dataset = save['valid_dataset']
  valid_labels = save['valid_labels']
  test_dataset = save['test_dataset']
  test_labels = save['test_labels']
  del save  # hint to help gc free up memory
  print('Training set', train_dataset.shape, train_labels.shape)
  print('Validation set', valid_dataset.shape, valid_labels.shape)
  print('Test set', test_dataset.shape, test_labels.shape)


#prepare data to have right format for tensorflow
#i.e. data is flat matrix, labels are onehot

image_size = 28
num_labels = 10

def reformat(dataset, labels):
  dataset = dataset.reshape((-1, image_size * image_size)).astype(np.float32)
  # Map 0 to [1.0, 0.0, 0.0 ...], 1 to [0.0, 1.0, 0.0 ...]
  labels = (np.arange(num_labels) == labels[:,None]).astype(np.float32)
  return dataset, labels
train_dataset, train_labels = reformat(train_dataset, train_labels)
valid_dataset, valid_labels = reformat(valid_dataset, valid_labels)
test_dataset, test_labels = reformat(test_dataset, test_labels)
print('Training set', train_dataset.shape, train_labels.shape)
print('Validation set', valid_dataset.shape, valid_labels.shape)
print('Test set', test_dataset.shape, test_labels.shape)


#now is the interesting part - we are building a network with
#one hidden ReLU layer and out usual output linear layer

#we are going to use SGD so here is our size of batch
batch_size = 128

#building tensorflow graph
graph = tf.Graph()
with graph.as_default():
      # Input data. For the training data, we use a placeholder that will be fed
  # at run time with a training minibatch.
  tf_train_dataset = tf.placeholder(tf.float32,
                                    shape=(batch_size, image_size * image_size))
  tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels))
  tf_valid_dataset = tf.constant(valid_dataset)
  tf_test_dataset = tf.constant(test_dataset)

  #now let's build our new hidden layer
  #that's how many hidden neurons we want
  num_hidden_neurons = 1024
  #its weights
  hidden_weights = tf.Variable(
    tf.truncated_normal([image_size * image_size, num_hidden_neurons]))
  hidden_biases = tf.Variable(tf.zeros([num_hidden_neurons]))

  #now the layer itself. It multiplies data by weights, adds biases
  #and takes ReLU over result
  hidden_layer = tf.nn.relu(tf.matmul(tf_train_dataset, hidden_weights) + hidden_biases)

  #time to go for output linear layer
  #out weights connect hidden neurons to output labels
  #biases are added to output labels  
  out_weights = tf.Variable(
    tf.truncated_normal([num_hidden_neurons, num_labels]))  

  out_biases = tf.Variable(tf.zeros([num_labels]))  

  #compute output  
  out_layer = tf.matmul(hidden_layer,out_weights) + out_biases
  #our real output is a softmax of prior result
  #and we also compute its cross-entropy to get our loss
  loss = tf.reduce_mean( tf.nn.softmax_cross_entropy_with_logits(out_layer, tf_train_labels))

  #now we just minimize this loss to actually train the network
  optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss)

  #nice, now let's calculate the predictions on each dataset for evaluating the
  #performance so far
  # Predictions for the training, validation, and test data.
  train_prediction = tf.nn.softmax(out_layer)
  valid_relu = tf.nn.relu(  tf.matmul(tf_valid_dataset, hidden_weights) + hidden_biases)
  valid_prediction = tf.nn.softmax( tf.matmul(valid_relu, out_weights) + out_biases) 

  test_relu = tf.nn.relu( tf.matmul( tf_test_dataset, hidden_weights) + hidden_biases)
  test_prediction = tf.nn.softmax(tf.matmul(test_relu, out_weights) + out_biases)

Demandé el 9 de Juillet, 2016 par Maxim Haytovich

Answer 1

3 Réponses

Answer 2

106voto

PhABC Points 1023

Une courte et évolutive, la façon de le faire serait ;

vars   = tf.trainable_variables() 
lossL2 = tf.add_n([ tf.nn.l2_loss(v) for v in vars ]) * 0.001

Au fond, sommes la l2_loss de tous vos moyens variables. Vous pouvez aussi faire un dictionnaire où vous spécifiez uniquement les variables que vous souhaitez ajouter à votre coût et de l'utilisation de la deuxième ligne du dessus. Ensuite, vous pouvez ajouter lossL2 avec votre softmax de la croix-valeur d'entropie pour calculer votre perte totale.

Edit : Comme mentionné par Piotr Dabkowski, le code ci-dessus va également de régulariser les préjugés. Ceci peut être évité en ajoutant une instruction if dans la deuxième ligne ;

lossL2 = tf.add_n([ tf.nn.l2_loss(v) for v in vars
                    if 'bias' not in v.name ]) * 0.001

Ceci peut être utilisé pour exclure d'autres variables.

Répondu el 19 de Juillet, 2016 par PhABC (1023 Points )

Answer 3

62voto

keveman Points 6351

hidden_weights, hidden_biases, out_weights, et out_biases sont tous les paramètres de modèle que vous êtes en train de créer. Vous pouvez ajouter L2 régularisation de TOUS ces paramètres comme suit :

loss = (tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(
    logits=out_layer, labels=tf_train_labels)) +
    0.01*tf.nn.l2_loss(hidden_weights) +
    0.01*tf.nn.l2_loss(hidden_biases) +
    0.01*tf.nn.l2_loss(out_weights) +
    0.01*tf.nn.l2_loss(out_biases))

Répondu el 10 de Juillet, 2016 par keveman (6351 Points )

Answer 4

19voto

Yousof Erfani Points 131

En fait, nous avons l'habitude de ne pas régulariser le biais de termes (intersections). Donc, je vais pour:

loss = (tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(
    logits=out_layer, labels=tf_train_labels)) +
    0.01*tf.nn.l2_loss(hidden_weights) +
    0.01*tf.nn.l2_loss(out_weights))

En pénalisant le terme constant, que l'ordonnée à l'origine est ajoutée aux valeurs de y, aura pour conséquence de changer les valeurs de y, l'ajout d'une constante c à l'intercepte. En avoir ou pas ne changera pas les résultats, mais prend quelques calculs

Répondu el 7 de Avril, 2017 par Yousof Erfani (131 Points )

TensorFlow - régularisation avec L2 perte, de façon à s'appliquer à tous les poids, pas seulement les derniers?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

TensorFlow - régularisation avec L2 perte, de façon à s'appliquer à tous les poids, pas seulement les derniers?

Réponses

Questions connexes

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: