问题

为什么L1正则化较容易产生稀疏解,而L2正则化较平缓稳定

介绍L1和L2

  L1和L2正则常被用来解决过拟合问题。而L1正则也常被用来进行特征选择,主要原因在于L1正则化会使得较多的参数为0,从而产生稀疏解。我们可以将0对应的特征遗弃,进而用来选择特征。

角度一 ——从代价函数上来看

但为什么L1正则会产生稀疏解呢?这里利用公式进行解释。
假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:

假设L(w)在0处的倒数为d0,即

则可以推导使用L1正则和L2正则时的导数。
引入L2正则项,在0处的导数

引入L1正则项,在0处的导数

可见,引入L2正则时,代价函数在0处的导数仍是d0,无变化。而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λ到d0−λ,若d0+λ和d0−λ异号,则在0处会是一个极小值点。因此,优化时,很可能优化到该极小值点上,即w=0处。

这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。

角度二 ——L1正则化本身的导数性质

这个角度从权值的更新公式来看权值的收敛结果。

首先来看看L1和L2的梯度(导数的反方向):

所以(不失一般性,我们假定:wi等于不为0的某个正的浮点数,学习速率η 为0.5):

L1的权值更新公式为wi = wi - η * 1 = wi - 0.5 * 1,也就是说权值每次更新都固定减少一个特定的值(比如0.5),那么经过若干次迭代之后,权值就有可能减少到0。

L2的权值更新公式为wi = wi - η * wi = wi - 0.5 * wi,也就是说权值每次都等于上一次的1/2,那么,虽然权值不断变小,但是因为每次都等于上一次的一半,所以很快会收敛到较小的值但不为0。

下面的图很直观的说明了这个变化趋势:


L1能产生等于0的权值,即能够剔除某些特征在模型中的作用(特征选择),即产生稀疏的效果。

L2可以得迅速得到比较小的权值,但是难以收敛到0,所以产生的不是稀疏而是平滑的效果。

角度三 ——几何空间

这个角度从几何位置关系来看权值的取值情况。

直接来看下面这张图

高维我们无法想象,简化到2维的情形,如上图所示。其中,左边是L1图示,右边是L2图示,左边的方形线上是L1中w1/w2取值区间,右边得圆形线上是L2中w1/w2的取值区间,绿色的圆圈表示w1/w2取不同值时整个正则化项的值的等高线(凸函数),从等高线和w1/w2取值区间的交点可以看到,L1中两个权值倾向于一个较大另一个为0,L2中两个权值倾向于均为非零的较小数。这也就是L1稀疏,L2平滑的效果。

参考

https://vimsky.com/article/969.html
https://blog.csdn.net/b876144622/article/details/81276818
https://blog.csdn.net/liangdong2014/article/details/79517638

为什么L1稀疏,L2平滑?相关推荐

  1. L1、L2正则化与稀疏性

    禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化   定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...

  2. 非负矩阵分解中基于L1和L2范式的稀疏性约束

    L1.L2范式 假设需要求解的目标函数为: E(x) = f(x) + r(x) 其中f(x)为损失函数,用来评价模型训练损失,必须是任意的可微凸函数,r(x)为规范化约束因子,用来对模型进行限制,根 ...

  3. 机器学习算法源码全解析(二)-范数规则化之L0、L1与L2范数

    前言 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较长,为了不吓到大家,我将这个 ...

  4. 机器学习中的范数规则化之L0、L1、L2范数

    我的博客中参考了大量的文章或者别的作者的博客,有时候疏忽了并未一一标注,本着分享交流知识的目的,如果侵犯您的权利,这并非我的本意,如果您提出来,我会及时改正. 本篇博客主要是为了解决机器学习中的过拟合 ...

  5. 简单理解L0、L1与L2范数

    机器学习中的范数规则化之(一)L0.L1与L2范数 监督机器学习问题无非就是"minimizeyour error while regularizing your parameters&qu ...

  6. L0、L1、L2 范数

    为什么正则化能够降低过拟合 : 为什么正则化能够降低过拟合 · 神经网络与深度学习 正则化的解释:  正则化 · 神经网络与深度学习 机器学习中正则化项L1和L2的直观理解: 机器学习中正则化项L1和 ...

  7. Machine Learning系列--L0、L1、L2范数

    今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个 ...

  8. 深入理解L0,L1和L2正则化

    正则化技术是机器学习中常用的技术,一般是用来解决过拟合问题的.为什么范数可以作为机器学习的正则化项?为什么L1正则化可以用来进行特征选择的工作?为什么正则化可以解决过拟合问题?本篇博客从机器学习中为什 ...

  9. L1和L2 复习问题

    L1和L2 L2正则化,为什么L2正则化可以防止过拟合?L1正则化是啥? https://editor.csdn.net/md/?articleId=106009362 "为什么所有这些都有 ...

最新文章

  1. oracle最大实例数,【Oracle】RAC的多实例数据迁移至单机的多实例。
  2. Splunk安装和配置及源码编译安装SVN
  3. 2010 February
  4. larvare数据库引入php_PHP全栈学习笔记6
  5. 数组赋值给vector和list,顺便说明int和size_t的区别
  6. HDU2011 多项式求和
  7. 【翻译】SILVERLIGHT设计时扩展(注:内容超长,请用IE浏览)
  8. C++(STL):16---deque之常规用法
  9. Vue3 高级语法(一)—— h函数、jsx
  10. 计算机二级office函数日期,Excel函数-日期和文本函数-计算机二级Office
  11. Java或Web中解决所有路径问题
  12. 推荐8款Windows装机必备下载神器【建议收藏】
  13. DB2学习之表误删除恢复
  14. 强化学习之Q函数的个人理解
  15. Java毕设项目晨光文具店进销存系统设计与开发计算机(附源码+系统+数据库+LW)
  16. LeetCode-717. 1比特与2比特字符
  17. Spring Data Elasticsearch 基本语法及使用
  18. 关于smtp发信的收件人to cc和bcc
  19. 如何把腾讯qlv转换成MP4格式呢
  20. UE4-4.26蓝图功能实现:按键升降电梯

热门文章

  1. 自由自在休闲食品实现奶茶妹的创业梦
  2. SAP从视图获得数据
  3. 微信公众平台两种消息处理流程对比
  4. 财经法规税收征收管理法律制度练习题二
  5. 快手“连横”京东,是志同道合还是抱团取暖?
  6. 疫后“反弹式”增长,AI营销或为广告业打开一扇新窗
  7. 用区块链确保用户数据自主权,看DCC如何玩转“普惠金融”?
  8. php写的微信聊天界面,浅谈 聊天界面 核心架构设计
  9. 安卓虚拟机_安卓虚拟机(*New*)v1.1.31去广告/去推荐/Mod/精简/VIP版
  10. java线程 对文件copy 可能删除了 报异常_java线程对文件copy可能删除了报异常