解释一:

假设费用函数 L 与某个参数 x 的关系如图所示:

则最优的 x 在绿点处,x 非零。

现在施加 L2 regularization,新的费用函数()如图中蓝线所示:

最优的 x 在黄点处,x 的绝对值减小了,但依然非零。

而如果施加 L1 regularization,则新的费用函数()如图中粉线所示:

最优的 x 就变成了 0。这里利用的就是绝对值函数的尖峰。

两种 regularization 能不能把最优的 x 变成 0,取决于原先的费用函数在 0 点处的导数。
如果本来导数不为 0,那么施加 L2 regularization 后导数依然不为 0,最优的 x 也不会变成 0。
而施加 L1 regularization 时,只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值,x = 0 就会变成一个极小值点。

上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0,这样模型就稀疏了。

解释二:

很多人贴PRML书里的那个图,但是感觉很多人有疑问,原本我要优化的是包含正则项的损失,这两个应该是一起优化的,为什么在图里把它们拆解了,其实PRML书里也说得很明白,我再说得具体点。

首先,我们要优化的是这个问题

其次,

这个优化问题是等价的,即对一个特定的 总存在一个 使得这两个问题是等价的(这个是优化里的知识)。

最后,下面这个图表达的其实

这个优化问题, 的解限制在黄色区域内,同时使得经验损失尽可能小

解答三:直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏

个人最喜欢第二种解释

L1为什么具有稀疏性相关推荐

  1. L1正则化与稀疏性、L1正则化不可导问题

    转:L1正则化与稀疏性 坐标轴下降法(解决L1正则化不可导的问题).Lasso回归算法: 坐标轴下降法与最小角回归法小结 L1正则化使得模型参数具有稀疏性的原理是什么? 机器学习经典之作<pat ...

  2. L1正则化及其稀疏性的傻瓜解释

    本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一 ...

  3. 正则化--L1正则化(稀疏性正则化)

    稀疏矢量通常包含许多维度.创建特征组合会导致包含更多维度.由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM. 在高维度稀疏矢量中,最好尽可能使权重正好降至 0.正好为 0 的 ...

  4. 机器学习速成课程 | 练习 | Google Development——编程练习:稀疏性和 L1 正则化

    稀疏性和 L1 正则化 学习目标: 计算模型大小 通过应用 L1 正则化来增加稀疏性,以减小模型大小 降低复杂性的一种方法是使用正则化函数,它会使权重正好为零.对于线性模型(例如线性回归),权重为零就 ...

  5. L1、L2正则化与稀疏性

    禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化   定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...

  6. 为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?

    # 个人认为,这两个应该是同一个问题. 首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考,有视频有图像,手动赞! https://zhuanlan.zhihu.com/p/25707761 当然 ...

  7. 稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization

    Sparsity 是当今机器学习领域中的一个重要话题.John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到: Some current challenges ...

  8. ECCV2020论文-稀疏性表示-Neural Sparse Representation for Image Restoration翻译

    Neural Sparse Representation for Image Restoration 用于图像复原的神经稀疏表示 Abstract 在基于稀疏编码的图像恢复模型中,基于稀疏表示的鲁棒性 ...

  9. 正则化,岭回归Shrinkage,lasso稀疏性推导和论文总结

    参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selec ...

最新文章

  1. linux 下查mac
  2. 《Linux内核原理与分析》第三周作业
  3. Java的内置垃圾收集如何使您的生活更美好(大部分时间)
  4. 为什么我们需要使用Pandas新字符串Dtype代替文本数据对象
  5. tomcat顶层架构
  6. 大龄打工者的出路在哪里
  7. centos7 访问php页面显示源码_运维干货分享:centos7下源码编译安装php-7.1.5(脚本)...
  8. mysql phpwind_Linux Apache php MySQL GD PHPWind 集成环境配置
  9. 数学作图工具_推荐工作学习中用到的三款在线作图神器!
  10. TwinCAT3入门教程3——PLC程序变量定义和硬件IO关联
  11. SEO优化:关于网站降权的方方面面!!!
  12. 中间状态+三方预约下单接口测试项目
  13. APS与ERP及MES的关系和接口
  14. MacBook不借助显示器通过u盘将openwrt安装到软路由硬盘
  15. 学习ISTQB基础级的正确姿势
  16. 对话系统 | (3) 阿里云小蜜对话机器人背后的核心算法
  17. vb.net 教程 11-1 打印组件 4 PrintDocument 1
  18. 爱了,爱了,一款拯救直男的开源神器!
  19. 用Python实现ipatables及l7lter的使用
  20. 任意输入n个整数,分别统计奇数的和、奇数的个数、偶数的和、偶数的个数。

热门文章

  1. signature=5edb6549fd9da7abd1cea3d5008f5c15,IMPLEMENTING INVERTED MASTER-SLAVE 3D SEMICONDUCTOR STACK
  2. linux echo 怎么输出换行符到文件?(echo -e)
  3. C语言ftell()函数(返回文件当前位置)(返回给定流 stream 的当前文件位置)
  4. C语言strstr()函数(在主字符串里查找子字符串,返回第一次找到的子字符串以及后面的字符串)
  5. WEB服务器和HTTP服务器和应用服务器的区别?(web服务器就是HTTP服务器)为什么要把Web服务器独立配置,和应用程序服务器一前一后?
  6. jpg图片与jpeg图片格式的区别(没有区别,.jpg只是扩展名.jpeg的缩写)
  7. pycharm 怎么查看函数信息?
  8. python——变量的类型、不同类型变量的计算、变量的输入以及格式化输出
  9. ThreadLocal怎么实现线程隔离的?可见性问题?为什么要重新定义一个threadLocalHashCode?为什么有内存泄露?弱引用又是什么?
  10. CF #737(div2) Ezzat and Two Subsequences 找规律