L1为什么具有稀疏性

解释一：

假设费用函数 L 与某个参数 x 的关系如图所示：

则最优的 x 在绿点处，x 非零。

现在施加 L2 regularization，新的费用函数（ $L + Cx^2$ ）如图中蓝线所示：

最优的 x 在黄点处，x 的绝对值减小了，但依然非零。

而如果施加 L1 regularization，则新的费用函数（ $L + C|x|$ ）如图中粉线所示：

最优的 x 就变成了 0。这里利用的就是绝对值函数的尖峰。

两种 regularization 能不能把最优的 x 变成 0，取决于原先的费用函数在 0 点处的导数。
如果本来导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 x 也不会变成 0。
而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。

上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。

解释二：

很多人贴PRML书里的那个图，但是感觉很多人有疑问，原本我要优化的是包含正则项的损失，这两个应该是一起优化的，为什么在图里把它们拆解了，其实PRML书里也说得很明白，我再说得具体点。

首先，我们要优化的是这个问题 $\min\limits_w E_D(w) + \lambda E_R(w)$ 。

其次， $\min\limits_w E_D(w) + \lambda E_R(w)$ 和 $\min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta$

这个优化问题是等价的，即对一个特定的 $\lambda$ 总存在一个 $\eta$ 使得这两个问题是等价的（这个是优化里的知识）。

最后，下面这个图表达的其实 $\min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta$

这个优化问题，把 $w$ 的解限制在黄色区域内，同时使得经验损失尽可能小。

解答三：直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏

个人最喜欢第二种解释

L1为什么具有稀疏性相关推荐

L1正则化与稀疏性、L1正则化不可导问题
转:L1正则化与稀疏性坐标轴下降法(解决L1正则化不可导的问题).Lasso回归算法: 坐标轴下降法与最小角回归法小结 L1正则化使得模型参数具有稀疏性的原理是什么? 机器学习经典之作<pat ...
L1正则化及其稀疏性的傻瓜解释
本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言好吧,我想我就是很笨的那一 ...
正则化--L1正则化（稀疏性正则化）
稀疏矢量通常包含许多维度.创建特征组合会导致包含更多维度.由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM. 在高维度稀疏矢量中,最好尽可能使权重正好降至 0.正好为 0 的 ...
机器学习速成课程 | 练习 | Google Development——编程练习：稀疏性和 L1 正则化
稀疏性和 L1 正则化学习目标: 计算模型大小通过应用 L1 正则化来增加稀疏性,以减小模型大小降低复杂性的一种方法是使用正则化函数,它会使权重正好为零.对于线性模型(例如线性回归),权重为零就 ...
L1、L2正则化与稀疏性
禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...
为什么L1正则化会有稀疏性？为什么L1正则化能进行内置特征选择？
# 个人认为,这两个应该是同一个问题. 首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考,有视频有图像,手动赞! https://zhuanlan.zhihu.com/p/25707761 当然 ...
稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization
Sparsity 是当今机器学习领域中的一个重要话题.John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到: Some current challenges ...
ECCV2020论文-稀疏性表示-Neural Sparse Representation for Image Restoration翻译
Neural Sparse Representation for Image Restoration 用于图像复原的神经稀疏表示 Abstract 在基于稀疏编码的图像恢复模型中,基于稀疏表示的鲁棒性 ...
正则化，岭回归Shrinkage，lasso稀疏性推导和论文总结
参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selec ...

L1为什么具有稀疏性

L1为什么具有稀疏性相关推荐

最新文章

热门文章