1、L2 正则化与权重衰减系数

L2 正则化就是在代价函数后面再加上一个正则化项：

其中C0代表原始的代价函数，后面那一项就是L2正则化项，它是这样来的：所有参数 w 的平方的和，除以训练集的样本大小 n。λ 就是正则项系数，权衡正则项与 C0 项的比重。另外还有一个系数1/2，1/2。 1/2 经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个 2，与 1/2 相乘刚好凑整为 1。系数 λ 就是权重衰减系数。

2、为什么可以对权重进行衰减

我们对加入 L2 正则化后的代价函数进行推导，先求导：

可以发现L2正则化项对 b 的更新没有影响，但是对于 w 的更新有影响：

在不使用 L2 正则化时，求导结果中 w 前系数为 1，现在 w 前面系数为1-ηλ/n，因为 η、λ、n 都是正的，所以 1-ηλ/n 小于 1，它的效果是减小 w，这也就是权重衰减（weight decay）的由来。当然考虑到后面的导数项，w 最终的值可能增大也可能减小。

另外，需要提一下，对于基于 mini-batch 的随机梯度下降，w和b更新的公式跟上面给出的有点不同：

对比上面 w 的更新公式，可以发现后面那一项变了，变成所有导数加和，乘以 η 再除以 m，m 是一个 mini-batch 中样本的个数。

3、权重衰减（L2正则化）的作用

作用：权重衰减（L2正则化）可以避免模型过拟合问题。

思考： L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？

原理：

（1）从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。

（2）从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

4、TensorFlow 版本的 weight decay 源码实现

参考：https://blog.csdn.net/weixin_44936889/article/details/103705435

其中的 tf.nn.l2_loss(weights) 指的是

5、PyTorch 实现

参考：https://blog.csdn.net/qq_39463274/article/details/105296890

权重衰减（weight decay）相关推荐

权值衰减weight decay的理解
1. 介绍权值衰减weight decay即L2正则化,目的是通过在Loss函数后加一个正则化项,通过使权重减小的方式,一定减少模型过拟合的问题. L1正则化:即对权重矩阵的每个元素绝对值求和, λ ...
权重衰减weight_decay参数从入门到精通
文章目录本文内容 1. 什么是权重衰减(Weight Decay) 2. 什么是正则化? 2.1 什么数据扰动 3. 减小模型权重 4. 为Loss增加惩罚项 4.1 通过公式理解Weight De ...
权重衰减/权重衰退——weight_decay
目录权重衰减/权重衰退--weight_decay 一.什么是权重衰减/权重衰退--weight_decay? 二.weight decay 的作用三.设置weight decay的值为多少? 权 ...
深度学习的权重衰减是什么_【深度学习理论】一文搞透Dropout、L1L2正则化/权重衰减...
前言本文主要内容--一文搞透深度学习中的正则化概念,常用正则化方法介绍,重点介绍Dropout的概念和代码实现.L1-norm/L2-norm的概念.L1/L2正则化的概念和代码实现- 要是文章看完 ...
动态正则化权重系数_权重衰减防止过拟合（L2正则化）
1..权重衰减(weight decay) L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化. L2正则化就是在代价函数后面再加上一个正则化项 ...
tf.nn.l2_loss() 与权重衰减（weight decay）
权重衰减(weight decay) L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化. L2正则化就是在代价函数后面再加上一个正则化 ...
深度学习：权重衰减（weight decay）与学习率衰减（learning rate decay）
正则化方法:防止过拟合,提高泛化能力避免过拟合的方法有很多:early stopping.数据集扩增(Data augmentation).正则化(Regularization)包括L1.L2(L2 ...
权重衰减（weight decay）在贝叶斯推断（Bayesian inference）下的理解
权重衰减(weight decay)在贝叶斯推断(Bayesian inference)下的理解摘要权重衰减贝叶斯(Bayes inference) 视角下的权重衰减似然函数(log like ...
weight decay（权值衰减）、momentum（冲量）和normalization
一.weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合.在损失函数中,weight decay是放在正则项(regularizat ...
突破模糊定性分析，批归一化和权重衰减的球面优化机制
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末阅读原文即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回 ...

权重衰减（weight decay）