scale缩放中心_规范化（包含归一化）、标准化、中心化、BN、正则化的区别

自己记录一下比较琐碎的东西，顺便为正在思考类似问题的同学提供份参考，如有错误欢迎指正。

注：有些参考链接中的叙述有我认为不太准确的地方，本文是把各参考链接中我认为正确的部分做了汇总。

标准化（standardization）

概率论有标准解释，大致是使得方差为1，均值为0。有量纲变为无量纲，不再赘述。

规范化（normalization，某些情况称为归一化，至于什么情况...可浏览后续内容）

把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。
（1）Min-Max Normalization
x' = (x - X_min) / (X_max - X_min)
（2）平均归一化(mean normalization)
x' = (x - μ) / (MaxValue - MinValue)
（1）和（2）有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。此外还有非线性归一化，比如对数函数转换，反余切函数转换。
归一化与标准化分别应何时使用：
（1）如果对输出结果范围有要求，用归一化。
（2）如果数据较为稳定，不存在极端的最大最小值，用归一化。
（3）如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。

西瓜书（2016年1月第1版）36页备注部分，做出了如下解释：

“规范化”(normalization)是将不同变化范围的值映射到相同的固定范围中，常见的是[0,1],此时亦称“归一化”。

可见归一化是规范化的一种，都是normalization。

我认为，规范化normalization定义的操作很广，一个数据集随便加减某个数（后面会提到，shift），随便乘除某个数（后面会提到,scale），或者这两个操作进行组合，都可以是规范化（也就是说，规范化包含后续提到的大部分操作）。只不过常用的就那几种，给人一种，那几个操作才是“规范化”的错觉。至于为什么会这样想，见后续的思考。

参考链接：

https://www.jianshu.com/p/95a8f035c86c
https://zhuanlan.zhihu.com/p/93350539

中心化（zero-centered 或者 mean-subtraction）

减去均值使得新的数据集均值为0。

想表达“减去任意大小的值”的话，有一个词shift与之对应，见后面关于BN的叙述。

缩放（scale）

将数据集除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理。

批归一化(batch normalization,BN)

首先，是要做normalization mean=0， variance= 1 其次，要用到mini-batch, 方便求mean 和 variance的值当然，还有额外的

$\gamma, \beta$ 来对新生成的distribution做一定幅度的放缩和平移，这两个参数分别控制着scale 和 shift

先使得mini-batch的均值为0方差为1，这明明是标准化standardization，BN的论文却也将其称为normalization。所以，正如前边所说，使得均值为0，方差为1，其实就是shift和scale的组合操作，是normalization的一种。

这部分叙述如果想深入了解可查看下方参考链接。

作用：

加快了模型收敛速度一定程度缓解了梯度弥散问题缓解covariance shift 的问题 BN还有轻微正则化的效果（将其视为副作用就好）

参考：

如何理解Batch Normalization中的scale and shift？ - 深度碎片的回答 - 知乎 https://www.zhihu.com/question/263856024/answer/274824952
吴恩达深度学习课程

正则化（regularization）

不是数据预处理范围，是一种防止过拟合的手段。

补充以及牢骚：

上述提到，对于规范化的解释，西瓜书中说：“......常见的是[0,1],此时亦称'归一化'。”但并未明确将范围映射到[0,1]才是归一化。并未说“仅有此时，才称'归一化'...”。要注意这两句并不等价。前一句给出了归一化的充分条件，后一句给出了归一化的充要条件。事实上，西瓜书并未给出充要条件，或者说，并未给出归一化的定义。

没有查找其他资料，所以我暂且认为：将数据变化范围映射到长度为1区间的行为才是归一化。也就是不仅仅认为映射到[0,1]才是归一化，那样感觉有些苛刻。也就是说，我认为可以将上述解释“归一化”时提到的min-max normalization以及mean noemalization翻译成“归一化”，因为这两个操作，将数据映射到了长度为1的区间。如果之后有其他资料，把某些将数据映射到长度不为1的区间的操作也称为“归一化”，我暂且认为是错的。

这里提一下，scikit-learn里有一个minmaxscaler，默认执行上述归一化理论中的minmax normalization（这个词组特指上侧引用的，有公式的那个“规范化”操作），但是也可以更改处理后数据的长度，也就是说，处理后不是1也可以。根据上述我的思考，这时我们说：如果采用默认设置，minmaxscaler执行了归一化（也可叫更大范围的概念---规范化），如果更改设置，使得处理后数据的长度不是1，这时就不能叫归一化了（但是还可以叫做规范化）。

总之英文的话较省事，汉语翻译时突然给了个“归一化”，也许对于某些常用操作来说，这个叫法很形象，但是，给出这个词，却不对这个词负责到底，任由它在领域内暧昧模糊地流窜，许多资料对这个归一化的解释都暧昧不清，甚至不给解释，直接说“你这样，这样，再这样，看到没，这个就是XX归一化。”（没有标准解释，没有说，符合什么特征的，叫做归一化。我们当然不能说，“显而易见啊，还用解释？”，就比如，将区间映射到[0,1]是归一化呢？还是只要区间长度是1就是归一化呢？还是说，以原点为中点，左右各1，也可以叫归一化呢？怎么解释好像都说得通。没有一个权威解释。好像大部分人只会说，啊，简单啊，这个我知道，这个操作是XX归一化。但什么是归一化的共同特征呢？）这很容易造成知识体系的混乱。目前就先在本文中给自己定一个标准，界定一下何为“归一化”，日后有机会看到明确的解释，再将本文更新。如果有些经典汉语著作已经对归一化做出了很好的解释…那权当我活该摸不着头脑吧，毕竟读得书确实少……（如果需要自己表达时，有时实在怕出错，暂时直接叫normalization或者“规范化”好了，忘掉“归一化”这个词。）