权值初始化 - Xavier和MSRA方法

设计好神经网络结构以及loss function 后，训练神经网络的步骤如下：

初始化权值参数
选择一个合适的梯度下降算法（例如：Adam，RMSprop等）
重复下面的迭代过程：
1. 输入的正向传播
2. 计算loss function 的值
3. 反向传播，计算loss function 相对于权值参数的梯度值
4. 根据选择的梯度下降算法，使用梯度值更新每个权值参数

初始化

神经网络的训练过程是一个迭代的过程，俗话说：好的开始就是成功的一半，所以的权值参数的初始化的值对网络最终的训练结果有很大的影响。过大或者过小的初始值，对网络收敛的结果都会有不好的结果。

所有的参数初始化为0或者相同的常数

最简单的初始化方法就是将权值参数全部初始化为0或者一个常数，但是使用这种方法会导致网络中所有的神经元学习到的是相同的特征，会导致网络退化！

假设神经网络中只有一个有2个神经元的隐藏层，现在将偏置参数初始化为：bias=0，权值矩阵初始化为一个常数α。网络的输入为(x1,x2)，隐藏层使用的激活函数为ReLU，则隐藏层的每个神经元的输出都是 $relu(\alpha x_{1}+\alpha x_{2})$ 。这就导致，对于loss function的值来说，两个神经元的影响是一样的，在反向传播的过程中对应参数的梯度值也是一样，也就说在训练的过程中，两个神经元的参数一直保持一致，其学习到的特征也就一样，相当于整个网络只有一个神经元。

过大或者过小的初始化

如果权值的初始值过大，则会导致梯度爆炸，使得网络不收敛；过小的权值初始值，则会导致梯度消失，会导致网络收敛缓慢或者收敛到局部极小值。

如果权值的初始值过大，则loss function相对于权值参数的梯度值很大，每次利用梯度下降更新参数的时，参数更新的幅度也会很大，这就导致loss function的值在其最小值附近震荡。

而过小的初值值则相反，loss关于权值参数的梯度很小，每次更新参数时，更新的幅度也很小，着就会导致loss的收敛很缓慢，或者在收敛到最小值前在某个局部的极小值收敛了。

Xavier初始化和He初始化（MSRA）见下连接

https://www.cnblogs.com/wangguchangqing/p/11013698.html