正则化(Regularization)

深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高,但正则化通常有助于避免过拟合或减少你的网络误差,下面我们就来讲讲正则化的作用原理。

我们用逻辑回归来实现这些设想,求成本函数JJJ的最小值,它是我们定义的成本函数,参数包含一些训练数据和不同数据中个体预测的损失,www和bbb是逻辑回归的两个参数,www是一个多维度参数矢量,bbb是一个实数。在逻辑回归函数中加入正则化,只需添加参数λ,也就是正则化参数,一会儿再详细讲。

λ2m\frac{\lambda}{2m}2mλ​乘以www范数的平方,其中∥w∥22\left\| w \right\|_2^2∥w∥22​是www的欧几里德范数的平方,等于wjw_{j}wj​(jjj 值从1到nxn_{x}nx​)平方的和,也可表示为wTww^{T}wwTw,也就是向量参数www 的欧几里德范数(2范数)的平方,此方法称为L2L2L2正则化,因为这里用了欧几里德范数,被称为向量参数www的L2L2L2范数。

为什么只正则化参数www?为什么不再加上参数 bbb 呢?你可以这么做,只是我习惯省略不写,因为www通常是一个高维参数矢量,已经可以表达高偏差问题,www可能包含有很多参数,我们不可能拟合所有参数,而bbb只是单个数字,所以www几乎涵盖所有参数,如果加了参数bbb,其实也没太大影响,因为bbb只是众多参数中的一个,所以我通常省略不计,如果你想加上这个参数,完全没问题。

L2L2L2正则化是最常见的正则化类型,你们可能听说过L1L1L1正则化,L1L1L1正则化,加的不是L2L2L2范数,而是正则项λm\frac{\lambda}{m}mλ​乘以∑j=1nx∣w∣\sum_{j= 1}^{n_{x}}{|w|}∑j=1nx​​∣w∣,∑j=1nx∣w∣\sum_{j =1}^{n_{x}}{|w|}∑j=1nx​​∣w∣也被称为参数www向量的L1L1L1范数,无论分母是mmm还是2m2m2m,它都是一个比例常量。

如果用的是L1L1L1正则化,www最终会是稀疏的,也就是说www向量中有很多0,有人说这样有利于压缩模型,因为集合中参数均为0,存储模型所占用的内存更少。实际上,虽然L1L1L1正则化使模型变得稀疏,却没有降低太多存储内存,所以我认为这并不是L1L1L1正则化的目的,至少不是为了压缩模型,人们在训练网络时,越来越倾向于使用L2L2L2正则化。

我们来看最后一个细节,λ\lambdaλ是正则化参数,我们通常使用验证集或交叉验证集来配置这个参数,尝试各种各样的数据,寻找最好的参数,我们要考虑训练集之间的权衡,把参数设置为较小值,这样可以避免过拟合,所以λ是另外一个需要调整的超级参数,这就是在逻辑回归函数中实现L2L2L2正则化的过程,如何在神经网络中实现L2L2L2正则化呢?

神经网络含有一个成本函数,该函数包含W[1]W^{[1]}W[1],b[1]b^{[1]}b[1]到W[l]W^{[l]}W[l],b[l]b^{[l]}b[l]所有参数,字母LLL是神经网络所含的层数,因此成本函数等于mmm个训练样本损失函数的总和乘以1m\frac{1}{m}m1​,正则项为λ2m∑1L∣W[l]∣2\frac{\lambda }{2m}{{\sum\nolimits_{1}^{L}{| {{W}^{[l]}}|}}^{2}}2mλ​∑1L​∣W[l]∣2,我们称∣∣W[l]∣∣2{||W^{\left[l\right]}||}^{2}∣∣W[l]∣∣2为范数平方,这个矩阵范数∣∣W[l]∣∣2{||W^{\left[l\right]}||}^{2}∣∣W[l]∣∣2(即平方范数),被定义为矩阵中所有元素的平方求和,

我们看下求和公式的具体参数,第一个求和符号其值iii从1到n[l−1]n^{[l - 1]}n[l−1],第二个其JJJ值从1到n[l]n^{[l]}n[l],因为WWW是一个n[l]×n[l−1]n^{[l]}\times n^{[l-1]}n[l]×n[l−1]的多维矩阵,n[l]n^{[l]}n[l]表示lll 层单元的数量,n[l−1]n^{[l-1]}n[l−1]表示第l−1l-1l−1层隐藏单元的数量。

该矩阵范数被称作“弗罗贝尼乌斯范数”,用下标FFF标注”,鉴于线性代数中一些神秘晦涩的原因,我们不称之为“矩阵L2L2L2范数”,而称它为“弗罗贝尼乌斯范数”,矩阵L2L2L2范数听起来更自然,但鉴于一些大家无须知道的特殊原因,按照惯例,我们称之为“弗罗贝尼乌斯范数”,它表示一个矩阵中所有元素的平方和。

该如何使用该范数实现梯度下降呢?

backprop计算出dW​dW​dW​的值,backprop会给出JJJ对​WWW的偏导数,实际上是​W[l]W^{[l]}W[l],把​W[l]W^{[l]}W[l]替换为​W[l]W^{[l]}W[l]减去学习率乘以​dWdWdW。

这就是之前我们额外增加的正则化项,既然已经增加了这个正则项,现在我们要做的就是给dWdWdW加上这一项λmW[l]\frac {\lambda}{m}W^{[l]}mλ​W[l],然后计算这个更新项,使用新定义的dW[l]dW^{[l]}dW[l],它的定义含有相关参数代价函数导数和,以及最后添加的额外正则项,这也是L2L2L2正则化有时被称为“权重衰减”的原因。

我们用dW[l]dW^{[l]}dW[l]的定义替换此处的dW[l]dW^{[l]}dW[l],可以看到,W[l]W^{[l]}W[l]的定义被更新为W[l]W^{[l]}W[l]减去学习率α\alphaα 乘以backprop 再加上λmW[l]\frac{\lambda}{m}W^{[l]}mλ​W[l]。

该正则项说明,不论W[l]W^{[l]}W[l]是什么,我们都试图让它变得更小,实际上,相当于我们给矩阵W乘以(1−αλm)(1 - \alpha\frac{\lambda}{m})(1−αmλ​)倍的权重,矩阵WWW减去αλm\alpha\frac{\lambda}{m}αmλ​倍的它,也就是用这个系数(1−αλm)(1-\alpha\frac{\lambda}{m})(1−αmλ​)乘以矩阵WWW,该系数小于1,因此L2L2L2范数正则化也被称为“权重衰减”,因为它就像一般的梯度下降,WWW被更新为少了α\alphaα乘以backprop输出的最初梯度值,同时WWW也乘以了这个系数,这个系数小于1,因此L2L2L2正则化也被称为“权重衰减”,以上就是在神经网络中应用L2L2L2正则化的过程。

为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)

为什么正则化有利于预防过拟合呢?为什么它可以减少方差问题?我们通过两个例子来直观体会一下。

左图是高偏差,右图是高方差,中间是**Just Right**

现在我们来看下这个庞大的深度拟合神经网络。我知道这张图不够大,深度也不够,但你可以想象这是一个过拟合的神经网络。这是我们的代价函数JJJ,含有参数WWW,bbb。我们添加正则项,它可以避免数据权值矩阵过大,这就是弗罗贝尼乌斯范数,为什么压缩L2L2L2范数,或者弗罗贝尼乌斯范数或者参数可以减少过拟合?

直观上理解就是如果正则化λ\lambdaλ设置得足够大,权重矩阵WWW被设置为接近于0的值,直观理解就是把多隐藏单元的权重设为0,于是基本上消除了这些隐藏单元的许多影响。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近左图的高偏差状态。

但是λ\lambdaλ会存在一个中间值,于是会有一个接近“Just Right”的中间状态。

直观理解就是λ\lambdaλ增加到足够大,WWW会接近于0,实际上是不会发生这种情况的,我们尝试消除或至少减少许多隐藏单元的影响,最终这个网络会变得更简单,这个神经网络越来越接近逻辑回归,我们直觉上认为大量隐藏单元被完全消除了,其实不然,实际上是该神经网络的所有隐藏单元依然存在,但是它们的影响变得更小了。神经网络变得更简单了,貌似这样更不容易发生过拟合,因此我不确定这个直觉经验是否有用,不过在编程中执行正则化时,你实际看到一些方差减少的结果。

我们再来直观感受一下,正则化为什么可以预防过拟合,假设我们用的是tanhtanhtanh这样的双曲线激活函数。

用g(z)g(z)g(z)表示tanh(z)tanh(z)tanh(z),我们发现如果 z 非常小,比如 z 只涉及很小范围的参数(图中原点附近的红色区域),这里我们利用了双曲正切函数的线性状态,只要zzz可以扩展为这样的更大值或者更小值,激活函数开始变得非线性。

如果正则化参数λ很大,激活函数的参数会相对较小,如果WWW很小,相对来说,zzz也会很小。

特别是,如果zzz的值最终在这个范围内,都是相对较小的值,g(z)g(z)g(z)大致呈线性,每层几乎都是线性的,和线性回归函数一样。

如果每层都是线性的,那么整个网络就是一个线性网络,即使是一个非常深的深层网络,因具有线性激活函数的特征,最终我们只能计算线性函数,因此,它不适用于非常复杂的决策,以及过度拟合数据集的非线性决策边界,如同我们上面看到的过度拟合高方差的情况。

总结一下,如果正则化参数变得很大,参数WWW很小,zzz也会相对变小,此时忽略bbb的影响,zzz会相对变小,实际上,zzz的取值范围很小,这个激活函数,也就是曲线函数tanhtanhtanh会相对呈线性,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,并不是一个极复杂的高度非线性函数,不会发生过拟合。

这就是L2L2L2正则化,它是我在训练深度学习模型时最常用的一种方法。

L2正则化(Regularization)相关推荐

  1. L2正则化Regularization详解及反向传播的梯度求导

    摘要 本文解释L2正则化Regularization, 求解其在反向传播中的梯度, 并使用TensorFlow和PyTorch验证. 相关 系列文章索引 : https://blog.csdn.net ...

  2. 最优化方法:L1和L2正则化regularization

    http://blog.csdn.net/pipisorry/article/details/52108040 机器学习和深度学习常用的规则化方法之一:L范数正则化(规格化). 一般来说,监督学习可以 ...

  3. 深度学习3:手动实现L2正则化(L2 Regularization)

    在神经网络中,正则化的作用是防止过拟合,本文将结合一个实例来讲解神经网络中的L2正则化,并手动(不使用框架)实现出来. 先来看代码运行结果: 增加L2正则化之前 增加L2正则化之后: L2正则化为:λ ...

  4. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  5. pytorch实现L2和L1正则化regularization的方法

    pytorch实现L2和L1正则化的方法 目录 目录 pytorch实现L2和L1正则化的方法 1.torch.optim优化器实现L2正则化 2. 如何判断正则化作用了模型? 2.1 未加入正则化l ...

  6. L2正则化(L2 Regularization)

    正则化其实就是给目标函数增加一个惩罚项,使得模型更倾向于使用更加简单的模型,防止过拟合. 文章目录 1. L 2 L_2 L2​正则化项的导出 2. L 1 L_1 L1​正则化项和 L 2 L_2 ...

  7. 机器学习中的L1与L2正则化图解!

    今日锦囊 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了,这个看似简单却十分重要的概念, ...

  8. keras构建前馈神经网络(feedforward neural network)进行分类模型构建并加入L2正则化

    keras构建前馈神经网络(feedforward neural network)进行分类模型构建并加入L2正则化 正则化(Regularization)是机器学习中一种常用的技术,其主要目的是控制模 ...

  9. 【机器学习基础】一文搞懂机器学习里的L1与L2正则化

    文章来源于SAMshare,作者flora 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化 ...

  10. 【机器学习】L1正则化与L2正则化详解及解决过拟合的方法

    在详细介绍L1与L2之前,先讲讲正则化的应用场景. 正则化方法:防止过拟合,提高泛化能力 所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越, ...

最新文章

  1. Gut:刘星吟/王益超/曹爱华等揭示孤独症患儿肠道菌群发育轨迹图谱(赵方庆点评)...
  2. 阿姨帮悬赏通缉,紧急扩散!
  3. 利用栈将中缀表达式转化成后缀表达式
  4. c++/cli中System::Type::GetType的使用注意事项
  5. 7.22 C++自学笔记
  6. 机器学习模型可解释性进行到底——特征重要性(四)
  7. 中国幻想向欧美妥协取得5G权益将是一种错误
  8. 关于码云的一些基本知识_关于葡萄酒,你必须知道的一些基础知识
  9. C++学习足迹---(纯DOS版)五子棋
  10. 计算机科学导论论文文章,计算机科学导论论文参考文献集 计算机科学导论论文参考文献数量是多少...
  11. mysql命令分号_MySql常用命令:注意命令后面的分号!
  12. 工程项目成本费用明细表_工程施工合同成本费用明细表有哪些
  13. RPG游戏之龙腾世纪魔术师养成攻略
  14. rd,pe,ae,fae,marketing,sales都是干嘛的?
  15. Android 2.3 Gingerbreader 正式发布,向游戏开发者献媚
  16. 【NLP】深度文本匹配综述
  17. 系统u盘怎么改回普通_u盘启动盘恢复成普通u盘u盘操作系统_详细教您怎么把系统装进U盘...
  18. 批量删除win7下的隧道适配器
  19. 真正可以免费使用的员工电脑监控软件
  20. Maya批量删除namespace

热门文章

  1. Go 1.18 发布了,不用翻墙即可下载!!!
  2. [Xcode 实际操作]八、网络与多线程-(25)实现ShareSdk的社会化分享功能
  3. Transformers 示例 | 六
  4. 服务器系统快照备份,云服务器如何设置快照备份
  5. 车载TBOX嵌入式设备软件的性能测试
  6. 看漫画学电子,非常精彩!有些概念以前模糊,现在真的懂了
  7. 米粉节来袭,小米电视音响竟然卖这个价
  8. 最大公约数算法GCD
  9. protostuff java_java protostuff 序列化反序列化工具
  10. NameNode工作机制