深度学习最佳实践系列—

摘要：本文是深度学习最佳实践系列博客之权重初始化，主要介绍权重初始化的相关问题及方法，文中提及的权重初始化方法均可以应用于普通的神经网络、卷积神经网络和递归神经网络之中。

作为深度学习的初学者，我有意识到的一件事情，即网络上没有太多的在线文档能够涵盖所有深层次的学习技巧。都是一些比较零碎的实践技巧，比如权重初始化、正则化及循环学习率等，这些可以使得训练和调试神经网络变得更容易和更高效。本系列博客内容将尽可能多地介绍一些实践细节，以便你更容易实现深度学习方法。
在撰写本文时，假定读者已经对如何训练神经网络有着一个基本的理解。理解权重（weight）、偏置（bias）、隐藏层（hidden layer）、激活函数（activation function）等内容将使你看本篇文章会更加清晰。如果你想建立一个深度学习的基础，推荐这门课程。
注明：本文提到神经网络的层时，表示的是一个简单的神经网络层，即全连接层。当然，本文所讲解的一些方法也适用于卷积和循环神经网络。在本文中，将讨论与权重矩阵初始化相关的问题以及如何减轻它们的方法。在此之前，先介绍一些将要使用的基本知识和符号。

基础和符号

考虑一个L层神经网络，它具有L-1个隐藏层和1个输出层。第l层的参数（权重和偏置）表示为

除了权重和偏置之外，在训练过程中，还会计算以下中间变量

一个神经网络的训练过程一般由以下4个步骤组成：

1.初始化权重和偏置。
2.前向传播（forward propagation）：使用输入X，权重W和偏置b，对于每一层计算Z和A。在最后一层中，计算f(A ^（L-1))，它可能会是S形函数softmax或线性函数的A ^(L-1)，并得到预测值y_hat。
3.计算损失函数（loss function）：该函数是理想标签y和预测标签y_hat二者的函数，它表明预测值离实际目标值有多大差距，训练神经网络模型的目的就是要尽量减少损失函数的值。
4.反向传播（back propagation）：在这一过程中，需要计算损失函数f(y，y_hat)相对于A、W和b的梯度，分别称为dA、dW和db。使用这些梯度值，将参数的值从最后一层反向更新到第一层。
5.对n次迭代重复步骤2-4，直到我们觉得已经最小化了损失函数，且没有过拟合训练数据时则表明训练结束。
下面快速浏览第2步、第3步和第4步。以一个2层网络为例，即只有一个隐藏层。（注意，为了简单起见，在这里没有添加偏置）：

前向传播

反向传播

权重W初始化

建立网络时首先需要注意的是要正确初始化权重矩阵。下面让我们考虑在训练模型时可能导致出现问题的两种初始化情况：

1.将所有权重初始化为0

这样的操作将使得模型等价于一个线性模型。将所有权重设为0时，对于W ^ l中的每个w而言，损失函数的导数都是相同的，因此在随后的迭代中所有权重具有相同的值，这会使得隐藏单元变得对称，并继续运行设置的n次迭代。因此，将权重设置为零会使得网络的性能并不比线性模型更好。值得注意的是，将偏置设置为0不会产生任何麻烦，因为非零权重可以打破对称性，即使偏置为0，每个神经元的值仍然不同。

2.随机初始化权重

按照标准正态分布（Python中可以用np.random.randn(size_l，size_l-1)实现）随机初始化权重可能会导致2个问题——梯度消失（vanishing gradient）或梯度爆炸（exploding gradient）：
a)梯度消失——对于深度网络，任何激活函数abs(dW)值将随着反向传播过程中每一层向后移动而变得越来越小。在这种情况下，较早的层次变化是最慢的。
权重更新较小，进而导致收敛速度变慢，这使会使得损失函数的优化变得缓慢。在最坏的情况下，可能会完全停止神经网络的进一步训练。
更具体地说，在sigmoid(z)和tanh(z)的情况下，如果权重值很大，那么梯度将会很小，从而有效地防止权重改变它们的值，这是因为abs(dW)每次迭代后会稍微增加或者变得越来越小。使用RELU(z)作为激活函数时，梯度消失通常不会成为问题，因为负（和零）输入的梯度值总为0，其正输入时梯度的值总为1。
b)梯度爆炸——这与梯度消失完全相反。假设你有非负的、大的权重值和小的激活值A（可能是sigmoid(z)的情况）。当这些权重沿着层次相乘时，会导致损失函数发生较大变化。因此，梯度值也会很大，这意味着W的变化将大幅增加W-⍺* dW。
这可能导致模型在最小值附近一直振荡，一次又一次错过了最佳值，模型将永远不会得到最好的学习！梯度爆炸的另一个影响是梯度的超大值可能会导致数字溢出，从而导致不正确的计算或引入NaN，这也可能导致出现损失值为NaN的情况。

最佳实践

1.使用RELU/leaky RELU作为激活函数，因为它对梯度消失/爆炸问题（特别是对于不太深的网络而言）相对健壮。在 leaky RELU作为激活函数的情况下，从来不会有梯度为0的时候，因此模型参数更新将永远不会停止，训练仍会继续训练。
2.对于深度网络，可以使用启发式来根据非线性激活函数初始化权重。在这里，并不是从标准正态分布绘图，而是用方差为k /n的正态分布初始化W，其中k的值取决于激活函数。尽管这些启发式方法不能完全解决梯度消失/爆炸问题，但它们在很大程度上有助于缓解这一问题。最常见的启发式方法是：
a)对于RELU(z)——将随机生成的W值乘以：

b)对于tanh(z) ——也被称为Xavier初始化。与前一个方法类似，但k的值设置为1而不是设置为2。

在TensorFlow中可以用W = tf.get_variable（'W'，[dims]，initializer）实现，其中initializer = tf.contrib.layers.xavier_initializer( )。
c)另一个常用的启发式方法：

这些方法都可以作为权重w初始化方法，都有缓解爆炸或消失梯度的可能性。这样设置的权重w既不会太大，也不会太小于1。因此，梯度不会消失或爆炸，有助于避免收敛缓慢，同时确保模型不会一直在最小值附近摇晃。当然，还存在上述方法的其它变体，大致的思想都是使参数的方差最小化。
3.梯度剪枝——这是处理梯度爆炸问题的另一种方法。我们可以设置一个阈值，如果一个梯度的选择函数大于这个设定的阈值，那么我们就将它设置为另一个值。例如，如果l2_norm(W)>阈值，则将L2范数超过特定阈值时的梯度值归一化为-W = W * threshold / l2_norm(W)。
需要注意的一点是，就是上述内容都是谈的权重W的各种初始化方法，并没有介绍任何偏置b的初始化方法。这是因为每层偏置的梯度仅取决于该层的线性激活值，而不取决于较深层的梯度值。因此，对于偏置项不会存在梯度消失和梯度爆炸问题。如前所述，可以安全地将偏置b初始化为0。

结论

在本文中，着重介绍了权重初始化方法以及一些缓解技术。如果本文漏掉了一些与此主题相关的任何其他有用的见解，希望读者在留言出指出。在接下来的博客中，将进一步讨论正则化方法，以减少过拟合和梯度检查——这是一种使调试更简单的技巧。

原文链接

本文为云栖社区原创内容，未经允许不得转载。