为什么L1稀疏,L2平滑?
问题
为什么L1正则化较容易产生稀疏解,而L2正则化较平缓稳定
介绍L1和L2
L1和L2正则常被用来解决过拟合问题。而L1正则也常被用来进行特征选择,主要原因在于L1正则化会使得较多的参数为0,从而产生稀疏解。我们可以将0对应的特征遗弃,进而用来选择特征。
角度一 ——从代价函数上来看
但为什么L1正则会产生稀疏解呢?这里利用公式进行解释。
假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:
假设L(w)在0处的倒数为d0,即
则可以推导使用L1正则和L2正则时的导数。
引入L2正则项,在0处的导数
引入L1正则项,在0处的导数
可见,引入L2正则时,代价函数在0处的导数仍是d0,无变化。而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λ到d0−λ,若d0+λ和d0−λ异号,则在0处会是一个极小值点。因此,优化时,很可能优化到该极小值点上,即w=0处。
这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。
角度二 ——L1正则化本身的导数性质
这个角度从权值的更新公式来看权值的收敛结果。
首先来看看L1和L2的梯度(导数的反方向):
所以(不失一般性,我们假定:wi等于不为0的某个正的浮点数,学习速率η 为0.5):
L1的权值更新公式为wi = wi - η * 1 = wi - 0.5 * 1,也就是说权值每次更新都固定减少一个特定的值(比如0.5),那么经过若干次迭代之后,权值就有可能减少到0。
L2的权值更新公式为wi = wi - η * wi = wi - 0.5 * wi,也就是说权值每次都等于上一次的1/2,那么,虽然权值不断变小,但是因为每次都等于上一次的一半,所以很快会收敛到较小的值但不为0。
下面的图很直观的说明了这个变化趋势:
L1能产生等于0的权值,即能够剔除某些特征在模型中的作用(特征选择),即产生稀疏的效果。
L2可以得迅速得到比较小的权值,但是难以收敛到0,所以产生的不是稀疏而是平滑的效果。
角度三 ——几何空间
这个角度从几何位置关系来看权值的取值情况。
直接来看下面这张图
高维我们无法想象,简化到2维的情形,如上图所示。其中,左边是L1图示,右边是L2图示,左边的方形线上是L1中w1/w2取值区间,右边得圆形线上是L2中w1/w2的取值区间,绿色的圆圈表示w1/w2取不同值时整个正则化项的值的等高线(凸函数),从等高线和w1/w2取值区间的交点可以看到,L1中两个权值倾向于一个较大另一个为0,L2中两个权值倾向于均为非零的较小数。这也就是L1稀疏,L2平滑的效果。
参考
https://vimsky.com/article/969.html
https://blog.csdn.net/b876144622/article/details/81276818
https://blog.csdn.net/liangdong2014/article/details/79517638
为什么L1稀疏,L2平滑?相关推荐
- L1、L2正则化与稀疏性
禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化 定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...
- 非负矩阵分解中基于L1和L2范式的稀疏性约束
L1.L2范式 假设需要求解的目标函数为: E(x) = f(x) + r(x) 其中f(x)为损失函数,用来评价模型训练损失,必须是任意的可微凸函数,r(x)为规范化约束因子,用来对模型进行限制,根 ...
- 机器学习算法源码全解析(二)-范数规则化之L0、L1与L2范数
前言 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较长,为了不吓到大家,我将这个 ...
- 机器学习中的范数规则化之L0、L1、L2范数
我的博客中参考了大量的文章或者别的作者的博客,有时候疏忽了并未一一标注,本着分享交流知识的目的,如果侵犯您的权利,这并非我的本意,如果您提出来,我会及时改正. 本篇博客主要是为了解决机器学习中的过拟合 ...
- 简单理解L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 监督机器学习问题无非就是"minimizeyour error while regularizing your parameters&qu ...
- L0、L1、L2 范数
为什么正则化能够降低过拟合 : 为什么正则化能够降低过拟合 · 神经网络与深度学习 正则化的解释: 正则化 · 神经网络与深度学习 机器学习中正则化项L1和L2的直观理解: 机器学习中正则化项L1和 ...
- Machine Learning系列--L0、L1、L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个 ...
- 深入理解L0,L1和L2正则化
正则化技术是机器学习中常用的技术,一般是用来解决过拟合问题的.为什么范数可以作为机器学习的正则化项?为什么L1正则化可以用来进行特征选择的工作?为什么正则化可以解决过拟合问题?本篇博客从机器学习中为什 ...
- L1和L2 复习问题
L1和L2 L2正则化,为什么L2正则化可以防止过拟合?L1正则化是啥? https://editor.csdn.net/md/?articleId=106009362 "为什么所有这些都有 ...
最新文章
- oracle最大实例数,【Oracle】RAC的多实例数据迁移至单机的多实例。
- Splunk安装和配置及源码编译安装SVN
- 2010 February
- larvare数据库引入php_PHP全栈学习笔记6
- 数组赋值给vector和list,顺便说明int和size_t的区别
- HDU2011 多项式求和
- 【翻译】SILVERLIGHT设计时扩展(注:内容超长,请用IE浏览)
- C++(STL):16---deque之常规用法
- Vue3 高级语法(一)—— h函数、jsx
- 计算机二级office函数日期,Excel函数-日期和文本函数-计算机二级Office
- Java或Web中解决所有路径问题
- 推荐8款Windows装机必备下载神器【建议收藏】
- DB2学习之表误删除恢复
- 强化学习之Q函数的个人理解
- Java毕设项目晨光文具店进销存系统设计与开发计算机(附源码+系统+数据库+LW)
- LeetCode-717. 1比特与2比特字符
- Spring Data Elasticsearch 基本语法及使用
- 关于smtp发信的收件人to cc和bcc
- 如何把腾讯qlv转换成MP4格式呢
- UE4-4.26蓝图功能实现:按键升降电梯
热门文章
- 自由自在休闲食品实现奶茶妹的创业梦
- SAP从视图获得数据
- 微信公众平台两种消息处理流程对比
- 财经法规税收征收管理法律制度练习题二
- 快手“连横”京东,是志同道合还是抱团取暖?
- 疫后“反弹式”增长,AI营销或为广告业打开一扇新窗
- 用区块链确保用户数据自主权,看DCC如何玩转“普惠金融”?
- php写的微信聊天界面,浅谈 聊天界面 核心架构设计
- 安卓虚拟机_安卓虚拟机(*New*)v1.1.31去广告/去推荐/Mod/精简/VIP版
- java线程 对文件copy 可能删除了 报异常_java线程对文件copy可能删除了报异常