1 量纲与无量纲

1.1 量纲

物理量的大小与单位有关。就比如1块钱和1分钱，就是两个不同的量纲，因为度量的单位不同了。

1.2 无量纲

物理量大小与单位无关。例如角度、增益、两个长度之比等

2 标准化

梯度下降是受益于特征缩放的算法之一。有一种特征缩放的方法叫标准化，标准化使得数据呈现正态分布，能够帮助梯度下降中学习进度收敛的更快。
标准化移动特征的均值（期望），使得特征均值（期望）为0，每个特征的标准差为1。

为何标准化能够帮助梯度下降学习是因为优化器需要经历一些步骤才能找到好的或最优的方案（全局最小代价），如图所示，这表示了一个二分类问题中，关于两个权重的代价曲线函数。
而我们再来看看图，图的正中心代表着全局最优的代价（代价最小），而左边的图w2方向比较窄，w1方向又比较宽，那么在梯度下降的过程中，在w2方向梯度会很小，所以会一直寻找最优的点，那么带来了迭代次数变多的后果，降低了效率。
而当对其标准化后，变为了右图这种0均值，1标准差的情况，那么在梯度下降的过程中，不会因为某个方向梯度过小而带来更多的迭代。

3 归一化

归一化（normalization）和标准化（standardization）区别不是很大，都是特征缩放（feature scale）的方式。

有的资料中说的，归一化是把数据压缩到[0,1]，把量纲转为无量纲的过程，方便计算、比较等。
我们有两种普通的方法来将不同的特征带到同样的范围：归一化（normalization）和标准化（standardization）。这两个术语在不同领域的使用比较松散，通常需要靠上下文来判断它们的含义。普遍情况下，归一化指的是将特征缩放到[0,1]这个区间，这是一个“min-max scaling”的特殊栗子。
而对于不同特征列向量来说，常用的归一化方法：min-max scaling公式如下：

归一化还有一点，就是说归到[ 0 , 1 ]区间后，并不会改变原本的数值大小排序关系。就比如上面的栗子，[ 1 , 5 , 3 ]的大小关系为( 1 , 3 , 2 )，归一化为[ 0 , 1 , 0.5 ] 后的大小关系依旧为( 1 , 3 , 2 )，并没有发生变化。

归一化的好处

提升模型的收敛速度
提升模型的精度

那么关于归一化、标准化的本质区别就是说：归一化是将特征缩放到[ 0 , 1 ] 区间，标准化是把特征缩放到均值为0，标准差为1。

4 正则化

正则化（regularization）是与标准化还有归一化完全不同的东西。正则化相当于是个惩罚项，用于惩罚那些训练的太好的特征/参数，防止模型过拟合，提高模型的泛化能力。

正则化就是用来处理collinearity的，这个collinearity指的是与特征高度相关，清理掉数据的噪声，最终阻止过拟合。而正则化实际上就是引入一个额外的信息（偏置）来惩罚极端的参数（权重）值。

我们看到图三这个曲线非线性拟合的太完美了，那么就造成了过拟合，造成的原因是因为特征过多，训练的太好了，而这个特征过多，我个人认为就对应了上面英文中的collinearity (high correlation among features)。

我们再来分析图二和图三的公式，多了的特征是x^3 和x^4，为何多了这两个就造成了图三这样的车祸现场（因为拟合的太好了，导致泛化性能很差，当有新的特征来的时候就哦豁了）？大家不妨回忆下泰勒级数，就是用多项式逼近任意一个曲线，这里也是同样的道理。那么我们要怎样解决过拟合？我们有以下两种方法：

1.减少特征个数（特征约减）：
手工保留部分特征（你觉得你能做到么？反正我觉得我做不到）
模型选择算法（PCA，SVD，卡方分布）
2.正则化：保留所有特征，惩罚系数θ，使之接近于0，系数小，贡献就小。所以也就对应了书本上的惩罚极端参数值。

正则化通常采用L2正则化，公式如下：

其中λ 称作正则化项。这里1/2是方便求导。

关于为何通常采用第二范数而非第一范数，我个人认为有如下两个理由：

计算机中计算平方比计算绝对值简单；
第二范数是光滑且可求导的，但是第一范数至少在0这个点是不可导的。

5 总结

量纲与无量纲的区别就是：物理量是否与单位有关。
标准化与归一化没有显著的区别，具体是谁要依据上下文确定。归一化是把特征缩放到[ 0 , 1 ]，标准化是把特征缩放到均值为0，标准差为1。
正则化是与标准化和归一化完全不同的东西，是用于惩罚训练的太好的参数，防止模型过拟合，提高模型的泛化能力。

原文：机器学习学习笔记（3）——量纲与无量纲，标准化、归一化、正则化_LiQZ的博客-CSDN博客_量纲归一化

量纲与无量纲、标准化、归一化、正则化【能够帮助梯度下降中学习进度收敛的更快、提升模型的收敛速度提升模型的精度、防止模型过拟合，提高模型的泛化能力】相关推荐

归一化，正则化等梯度下降优化详解（4）机器学习
在学习了梯度下降机器原理本质,以及可能遇到的问题之后,我们可以进一步针对梯度下降进行优化,使得最终更快更准的走向最优值. 1 归一化 1.1 归一化目的在不同特征的滑动过程中,不同方向的陡峭 ...
2.2 理解 Mini-batch 梯度下降-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.1 Mini-batch 梯度下降回到目录 2.3 指数加权平均理解 Mini-batch 梯度下降 (Understanding Mini-batch Gradie ...
正则化提高神经网络的泛化能力
目录使用正则化提高神经网络的泛化能力方法: 早停法暂退法权重衰减 L1和L2正则化数据增强正则化不单指某一个方法,而是所有损害网络优化的方法都是正则化. 损害网络优化是为了防止过拟合. 使用 ...
如何提高神经网络的泛化能力？八大要点掌握
提高神经网络的泛化能力 1. 使用更多数据在有条件的前提下,尽可能多地获取训练数据是最理想的方法,更多的数据可以让模型得到充分的学习,也更容易提高泛化能力. 2. 使用更大批次在相同迭代次数和学习 ...
梯度下降之模拟退火、梯度下降之学习计划、牛顿法、拟牛顿法、共轭梯度法
梯度下降之模拟退火.梯度下降之学习计划.牛顿法.拟牛顿法.共轭梯度法目录
2.1 Mini-batch 梯度下降-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.15 总结回到目录 2.2 理解 mini-batch 梯度下降法 Mini-batch 梯度下降 (Mini-batch Gradient Descent) 本周将学 ...
机器学习--提高神经网络的泛化能力
泛化能力是指机器学习算法对新鲜样本的适应能力.学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力. 在实际情况中,我们通常通过 ...
2.10 m 个样本的梯度下降-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.9 Logistic 回归的梯度下降法回到目录 2.11 向量化 mmm 个样本的梯度下降 (Gradient Descent on mmm example) 在之前的 ...
机器学习的梯度下降中学习率的选取
学习率,站在数学的角度去理解,就是步长,它决定了每次迭代过程中沿着梯度方向移动的距离.如果步长很大,那么算法就会陷入局部最优,很难收敛:步长太小,则算法将会花费大量的时间,才能收敛,速度很慢.所以学习 ...

量纲与无量纲、标准化、归一化、正则化【能够帮助梯度下降中学习进度收敛的更快、提升模型的收敛速度提升模型的精度、防止模型过拟合，提高模型的泛化能力】