MSRA初始化和Xavier初始化权值

神经网络权值初始化方法

引言

神经网络权值的初始化对于网络训练速度以及收敛性有很大影响，因此我们需要合适的方法。传统的初始化的方法是使用固定标准差的高斯分布，在caffe中使用的是经典的Xavier初始化方法，当然直接进行预训练也是初始化的一种好的方法，一个好的初始化可以有助于收敛到一个优秀的局部最优解，且收敛速度快。但这些方法在ReLU系列以及网络层数较深时，这样的初始化无法得到很好的结果。何凯明大佬提出了MSRA初始化。MSRA初始化可以说是专门为ReLU系列激活函数特意设计的。具体可参考文章《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》
Xavier初始化
可以参考这两篇文章，这两位讲的很详细
(1).https://blog.csdn.net/weixin_35479108/article/details/90694800
(2).深度前馈网络与Xavier初始化原理 - 夕小瑶的文章 - 知乎
https://zhuanlan.zhihu.com/p/27919794
MSRA初始化
可以参考这两篇文章，这两位讲的很详细
(1).Delving Deep into Rectifiers - fountain-k的文章 - 知乎
https://zhuanlan.zhihu.com/p/103825243
(2).https://blog.csdn.net/happynear/article/details/45440811
同时这种初始化方法通过前向传递初始化或者反向传递初始化都是可以的

MSRA初始化和Xavier初始化权值相关推荐

为什么权重初始化要非对称？为什么权重初始化不能全为0？为什么初始化值不能太大或者太小？介绍下He初始化以及Xavier初始化？
为什么权重初始化要非对称?为什么权重初始化不能全为0?为什么初始化值不能太大或者太小?介绍下He初始化以及Xavier初始化? 目录
搞懂深度网络初始化（Xavier and Kaiming initialization）
参数初始化就是这么一个容易被忽视的重要因素,因为不仅使用者对其重要性缺乏概念,而且这些操作都被TF.pytorch这些框架封装了,你可能不知道的是,糟糕的参数初始化是会阻碍复杂非线性系统的训练的. 本 ...
权值初始化 - Xavier和MSRA方法
设计好神经网络结构以及loss function 后,训练神经网络的步骤如下: 初始化权值参数选择一个合适的梯度下降算法(例如:Adam,RMSprop等) 重复下面的迭代过程: 输入的正向传播计 ...
caffe中权值初始化方法
参考:https://www.cnblogs.com/tianshifu/p/6165809.html 首先说明:在caffe/include/caffe中的 filer.hpp文件中有它的源文件,如 ...
深度学习--权值初始化
什么是权值初始化在神经网络的前向传播的过程中,需要设置输入到输出的权重. 为什么要权值初始化正确的权值初始化可以促进模型的快速收敛,不正确的权值初始化可能使得模型在前向传播是发生发生信息消失,或在 ...
PyTorch框架学习十一——网络层权值初始化
PyTorch框架学习十一--网络层权值初始化一.均匀分布初始化二.正态分布初始化三.常数初始化四.Xavier 均匀分布初始化五.Xavier正态分布初始化六.kaiming均匀分布初始 ...
Pytorch —— 权值初始化
1.梯度消失与爆炸这里使用一个三层的全连接网络,现在观察一下第二个隐藏层W2W_2W2的权值的梯度是怎么求取的. 根据链式求导法则可以知道,W2W_2W2的求导如下: H2=H1∗W2\math ...
utilities（matlab）—— 前馈网络权值矩阵初始化方式
我们知道一个好的权值矩阵的初始化方式将会带来收敛效率的提升. 本文所实现的前馈网络的权值矩阵初始化方式来源于: Xavier Glorot,Yoshua Bengio,Understanding th ...
Lecture6：激活函数、权值初始化、数据预处理、批量归一化、超参数选择
目录 1.最小梯度下降(Mini-batch SGD) 2.激活函数 2.1 sigmoid 2.2 tanh 2.3 ReLU 2.4 Leaky ReLU 2.5 ELU 2.6 最大输出神经元 ...

MSRA初始化和Xavier初始化权值

神经网络权值初始化方法

MSRA初始化和Xavier初始化权值相关推荐

最新文章

热门文章