组归一化（Group Normalization）的解释

看了网上最新的一些文章，来解释组归一化（Group Normalization）。
发现百家号的如下文章，解释的比较清晰。大家可去学习参考。
文章标题是“全面解读Group Normalization”，网址如下
http://baijiahao.baidu.com/s?id=1596620335120928574&wfr=spider&for=pc

现把主要信息列举出来，便于今后学习。

Group Normalization是一种新的深度学习归一化方式，可以替代BN。
BN是深度学习中常使用的归一化方法，在提升训练以及收敛速度上发挥了重大的作用，是深度学习上里程碑式的工作。

BN，全名是Batch Normalization。
BN是一种归一化方式，而且是以batch的维度做归一化，依赖batch，过小的batch size会导致其性能下降，一般来说每GPU上batch设为32最合适。

BN的问题，主要是在batch这个维度上进行归一化，但这个维度并不是固定不变的，比如训练和测试时一般不一样，一般都是训练的时候在训练集上通过滑动平均预先计算好平均-mean，和方差-variance参数。而在测试的时候，不再计算这些值，而是直接调用这些预计算好的来用，但，当训练数据和测试数据分布有差别是时，训练时上预计算好的数据并不能代表测试数据，这就导致在训练，验证，测试这三个阶段存在不一致。

GN的归一化方式避开了batch size对模型的影响，特征的group归一化同样可以解决$Internal$ $Covariate$ $Shift$的问题，并取得较好的效果。

GN与BN的优劣比较：
1、BN会受到batchsize大小的影响。如果batchsize太小，算出的均值和方差就会不准确，如果太大，显存又可能不够用。
2、GN算的是channel方向每个group的均值和方差，和batchsize没关系，自然就不受batchsize大小的约束。
随着batchsize的减小，GN的表现基本不受影响，而BN的性能却越来越差。

BN，LN，IN，GN从学术化上解释差异：

BatchNorm：batch方向做归一化，算N*H*W的均值
LayerNorm：channel方向做归一化，算C*H*W的均值
InstanceNorm：一个channel内做归一化，算H*W的均值
GroupNorm：将channel方向分group，然后每个group内做归一化，算(C//G)*H*W的均值

组归一化（Group Normalization）的解释相关推荐

group normalization
全面解读Group Normalization-(吴育昕-何恺明 ) - 知乎前言 Face book AI research(FAIR)吴育昕-恺明联合推出重磅新作Group Normalizati ...
何恺明、吴育昕最新成果：用组归一化替代批归一化
编译 | 阿司匹林 AI科技大本营按:近日,FAIR 团队的吴育昕和何恺明提出了组归一化(Group Normalization,简称 GN)的方法.其中,GN 将信号通道分成一个个组别,并在每个组别 ...
深度学习（二十八）——SOM, Group Normalization, MobileNet, 花式卷积进阶
RBM & DBN & Deep Autoencoder(续) DBN RBM不仅可以单独使用,也可以堆叠起来形成Deep Belief Nets(DBNs),其中每个RBM层都与其前 ...
论文阅读 - Group Normalization
文章目录 1 概述 2 几种normalization的方法 2.1 Batch Norm 2.2 Layer Norm 2.3 Instance Norm 2.4 Group Norm 3 效果对比 ...
深度剖析 | SN 可微分学习的自适配归一化 (Switchable Normalization)
补充:NIPS 2018 | MIT新研究参透批归一化原理根据最新的研究,BN层的成功和协方差什么的没有关联!证明这种层输入分布稳定性与 BatchNorm 的成功几乎没有关系.相反,我们发现 Ba ...
常用的归一化（Normalization）方法：BN、LN、IN、GN
常用的Normalization方法主要有:Batch Normalization(BN,2015年).Layer Normalization(LN,2016年).Instance Normaliza ...
Group Normalization（BN、LN、IN、GN） Switchable Normalization Weight Standardization
BN BN的作用为了对隐含层进行归一化操作.对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落 ...
Batch Nomalization,Group Normalization,Cross-Iteration Batch Normalization分析
BatchNomalization 发表于第32届机器学习国际会议 PMLR,2015年前言由于深度神经网络每层输入的分布在训练过程中随着前一层的参数变化而变化,因此训练深度神经网络很复杂.由于需 ...
（转载）深度剖析 | 可微分学习的自适配归一化 (Switchable Normalization)
深度剖析 | 可微分学习的自适配归一化 (Switchable Normalization) 作者:罗平.任家敏.彭章琳编写:吴凌云.张瑞茂.邵文琪.王新江转自:知乎.原论文参考arXiv:180 ...
【AI数学】Group Normalization(何恺明ECCV2018最佳论文提名)
声明:原创文章,欢迎转载,但必须经过本人同意. 论文标题:<Group Normalization> 论文链接: https://arxiv.org/pdf/1803.08494.pdf ...

组归一化（Group Normalization）的解释

组归一化（Group Normalization）的解释相关推荐

最新文章

热门文章