L1为什么具有稀疏性
解释一:
假设费用函数 L 与某个参数 x 的关系如图所示:
则最优的 x 在绿点处,x 非零。
现在施加 L2 regularization,新的费用函数()如图中蓝线所示:
最优的 x 在黄点处,x 的绝对值减小了,但依然非零。
而如果施加 L1 regularization,则新的费用函数()如图中粉线所示:
最优的 x 就变成了 0。这里利用的就是绝对值函数的尖峰。
两种 regularization 能不能把最优的 x 变成 0,取决于原先的费用函数在 0 点处的导数。
如果本来导数不为 0,那么施加 L2 regularization 后导数依然不为 0,最优的 x 也不会变成 0。
而施加 L1 regularization 时,只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值,x = 0 就会变成一个极小值点。
上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0,这样模型就稀疏了。
解释二:
很多人贴PRML书里的那个图,但是感觉很多人有疑问,原本我要优化的是包含正则项的损失,这两个应该是一起优化的,为什么在图里把它们拆解了,其实PRML书里也说得很明白,我再说得具体点。
首先,我们要优化的是这个问题 。
其次, 和
这个优化问题是等价的,即对一个特定的 总存在一个 使得这两个问题是等价的(这个是优化里的知识)。
最后,下面这个图表达的其实
这个优化问题,把 的解限制在黄色区域内,同时使得经验损失尽可能小。
解答三:直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏
个人最喜欢第二种解释
L1为什么具有稀疏性相关推荐
- L1正则化与稀疏性、L1正则化不可导问题
转:L1正则化与稀疏性 坐标轴下降法(解决L1正则化不可导的问题).Lasso回归算法: 坐标轴下降法与最小角回归法小结 L1正则化使得模型参数具有稀疏性的原理是什么? 机器学习经典之作<pat ...
- L1正则化及其稀疏性的傻瓜解释
本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一 ...
- 正则化--L1正则化(稀疏性正则化)
稀疏矢量通常包含许多维度.创建特征组合会导致包含更多维度.由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM. 在高维度稀疏矢量中,最好尽可能使权重正好降至 0.正好为 0 的 ...
- 机器学习速成课程 | 练习 | Google Development——编程练习:稀疏性和 L1 正则化
稀疏性和 L1 正则化 学习目标: 计算模型大小 通过应用 L1 正则化来增加稀疏性,以减小模型大小 降低复杂性的一种方法是使用正则化函数,它会使权重正好为零.对于线性模型(例如线性回归),权重为零就 ...
- L1、L2正则化与稀疏性
禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化 定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...
- 为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?
# 个人认为,这两个应该是同一个问题. 首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考,有视频有图像,手动赞! https://zhuanlan.zhihu.com/p/25707761 当然 ...
- 稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization
Sparsity 是当今机器学习领域中的一个重要话题.John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到: Some current challenges ...
- ECCV2020论文-稀疏性表示-Neural Sparse Representation for Image Restoration翻译
Neural Sparse Representation for Image Restoration 用于图像复原的神经稀疏表示 Abstract 在基于稀疏编码的图像恢复模型中,基于稀疏表示的鲁棒性 ...
- 正则化,岭回归Shrinkage,lasso稀疏性推导和论文总结
参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selec ...
最新文章
- linux 下查mac
- 《Linux内核原理与分析》第三周作业
- Java的内置垃圾收集如何使您的生活更美好(大部分时间)
- 为什么我们需要使用Pandas新字符串Dtype代替文本数据对象
- tomcat顶层架构
- 大龄打工者的出路在哪里
- centos7 访问php页面显示源码_运维干货分享:centos7下源码编译安装php-7.1.5(脚本)...
- mysql phpwind_Linux Apache php MySQL GD PHPWind 集成环境配置
- 数学作图工具_推荐工作学习中用到的三款在线作图神器!
- TwinCAT3入门教程3——PLC程序变量定义和硬件IO关联
- SEO优化:关于网站降权的方方面面!!!
- 中间状态+三方预约下单接口测试项目
- APS与ERP及MES的关系和接口
- MacBook不借助显示器通过u盘将openwrt安装到软路由硬盘
- 学习ISTQB基础级的正确姿势
- 对话系统 | (3) 阿里云小蜜对话机器人背后的核心算法
- vb.net 教程 11-1 打印组件 4 PrintDocument 1
- 爱了,爱了,一款拯救直男的开源神器!
- 用Python实现ipatables及l7lter的使用
- 任意输入n个整数,分别统计奇数的和、奇数的个数、偶数的和、偶数的个数。
热门文章
- signature=5edb6549fd9da7abd1cea3d5008f5c15,IMPLEMENTING INVERTED MASTER-SLAVE 3D SEMICONDUCTOR STACK
- linux echo 怎么输出换行符到文件?(echo -e)
- C语言ftell()函数(返回文件当前位置)(返回给定流 stream 的当前文件位置)
- C语言strstr()函数(在主字符串里查找子字符串,返回第一次找到的子字符串以及后面的字符串)
- WEB服务器和HTTP服务器和应用服务器的区别?(web服务器就是HTTP服务器)为什么要把Web服务器独立配置,和应用程序服务器一前一后?
- jpg图片与jpeg图片格式的区别(没有区别,.jpg只是扩展名.jpeg的缩写)
- pycharm 怎么查看函数信息?
- python——变量的类型、不同类型变量的计算、变量的输入以及格式化输出
- ThreadLocal怎么实现线程隔离的?可见性问题?为什么要重新定义一个threadLocalHashCode?为什么有内存泄露?弱引用又是什么?
- CF #737(div2) Ezzat and Two Subsequences 找规律