转:L1正则化与稀疏性

坐标轴下降法(解决L1正则化不可导的问题)、Lasso回归算法: 坐标轴下降法与最小角回归法小结

L1正则化使得模型参数具有稀疏性的原理是什么?

机器学习经典之作《pattern recognition and machine learning》中的第三章作出的一个解释无疑是权威且直观的,我们也经常都是从这个角度出发,来解释L1正则化使得模型参数具有稀疏性的原理。再回顾一下,以二维为例,红色和黄色的部分是L1、L2正则项约束后的解空间,蓝色的等高线是凸优化问题中的目标函数(未加入正则项的)的等高线,如图所示,L2正则项约束后的解空间是圆形,而L1正则项约束后的解空间是菱形,显然,菱形的解空间更容易在尖角处与等高线碰撞出稀疏解。

假设原目标函数是 y = ( w 1 − 2 ) 2 + ( w 2 − 2 ) 2 y=(w_1−2)^2+(w_2−2)^2 y=(w1​−2)2+(w2​−2)2

在未加入正则项之前,这个最优解无疑是 ( w 1 = 2 , w 2 = 2 ) (w_1=2,w_2=2) (w1​=2,w2​=2)
但加入了正则项 y = ( w 1 − 2 ) 2 + ( w 2 − 2 ) 2 + 1 ∗ ( w 1 2 + w 2 2 ) y=(w_1−2)^2+(w_2−2)^2+1∗(w^2_1+w^2_2) y=(w1​−2)2+(w2​−2)2+1∗(w12​+w22​)
之后但最优解就不再是 ( w 1 = 2 , w 2 = 2 ) (w_1=2,w_2=2) (w1​=2,w2​=2)而是 ( w 1 = 1 , w 2 = 1 ) (w_1=1,w_2=1) (w1​=1,w2​=1)
这是 ( w 1 − 2 ) 2 + ( w 2 − 2 ) 2 = a (w_1−2)^2+(w_2−2)^2=a (w1​−2)2+(w2​−2)2=a 和 w 1 2 + w 2 2 = b w^2_1+w^2_2=b w12​+w22​=b这两个圆的切点。切点处 a = 2 , b = 2 a=2,b=2 a=2,b=2,此时正好 a = b a=b a=b,这与我们的目标函数取值 y = ( w 1 − 2 ) 2 + ( w 2 − 2 ) 2 y=(w_1−2)^2+(w_2−2)^2 y=(w1​−2)2+(w2​−2)2 是个圆形有关,如果是其他形状,不一定有 a = b a=b a=b。

上面的解释无疑是正确的,但还不够准确,也就是回答但过于笼统,以至于忽略了几个关键问题,例如,为什么加入正则项就是定义了一个解空间约束,为什么L1、L2正则项的解空间不同。如果第一个问题回答了,第二个问题相对好回答。
其实可以通过kkt条件给出一种解释。

事实上,“带正则化项”和“带约束条件”是等价的,为了约束w的可能取值空间从而防止过拟合。

如果我们为线性回归加上一个约束,就是 w w w 的 l 2 l2 l2 范数不能大于 m m m :

为了求解这个带约束条件的不等式,我们会写出拉格朗日函数
如果w∗w^{}w

是原问题(1)的解,λ∗\lambda^{


是对偶问题(2)的解,
一般都是先求出对偶问题的解λ∗\lambda^{

,然后带入kkt条件中(λ∗\lambda^{


和w∗w^{}w

的关系),就能求出w∗w^{
}w

。w∗w^{*}w

也必然是原问题的解。
这里kkt条件是:

其中,第一个式子就是带L2正则项的优化问题最优解w∗w^{}w

,而λ∗\lambda^{


是L2正则项前的系数。

这就是为什么带正则化项相当于为参数约束了解空间,且L2正则项为参数约束了一个圆形解空间,L1正则项为参数约束了一个菱形解空间,如果原问题的最优解没有落在解空间的内部,就只能落在解空间的边界上。
而L1正则项为参数约束了一个“棱角分明”的菱形解空间,更容易与目标函数等高线在角点,坐标轴上碰撞,从而产生稀疏性。

看到上面,其实我直接有个疑问,就是“如果我们为线性回归加上一个约束,就是w的l2范数不能大于m”、这句话里的m是个固定的确定值,还是瞎设的值。
后面我的想法是,任意给定一个m值,都能得到一个两圆相切的切点,从而得到其给定m条件下的带正则项的最优解,然后在不同的m值中,再选出某个m值对应的最优解是全局最优解,从而得到最终的最优解。

L1正则化与稀疏性、L1正则化不可导问题相关推荐

  1. 机器学习/算法面试笔记1——损失函数、梯度下降、优化算法、过拟合和欠拟合、正则化与稀疏性、归一化、激活函数

    正值秋招,参考网络资源整理了一些面试笔记,第一篇包括以下7部分. 1.损失函数 2.梯度下降 3.优化算法 4.过拟合和欠拟合 5.正则化与稀疏性 6.归一化 7.激活函数 损失函数 损失函数分为经验 ...

  2. L1正则化及其稀疏性的傻瓜解释

    本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一 ...

  3. L1、L2正则化与稀疏性

    禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化   定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...

  4. 机器学习-过拟合、正则化、稀疏性、交叉验证概述

    在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是模型在总体样本上的误差.对于一个好的模型应该是经验误差约等 ...

  5. 机器学习入门13 - 正则化:稀疏性 (Regularization for Sparsity)

    原文链接:https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/ 1- L₁正 ...

  6. 正则化--L1正则化(稀疏性正则化)

    稀疏矢量通常包含许多维度.创建特征组合会导致包含更多维度.由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM. 在高维度稀疏矢量中,最好尽可能使权重正好降至 0.正好为 0 的 ...

  7. L1为什么具有稀疏性

    解释一: 假设费用函数 L 与某个参数 x 的关系如图所示: 则最优的 x 在绿点处,x 非零. 现在施加 L2 regularization,新的费用函数()如图中蓝线所示: 最优的 x 在黄点处, ...

  8. 机器学习速成课程 | 练习 | Google Development——编程练习:稀疏性和 L1 正则化

    稀疏性和 L1 正则化 学习目标: 计算模型大小 通过应用 L1 正则化来增加稀疏性,以减小模型大小 降低复杂性的一种方法是使用正则化函数,它会使权重正好为零.对于线性模型(例如线性回归),权重为零就 ...

  9. 为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?

    # 个人认为,这两个应该是同一个问题. 首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考,有视频有图像,手动赞! https://zhuanlan.zhihu.com/p/25707761 当然 ...

最新文章

  1. python中装饰器的作用_Python装饰器详解,详细介绍它的应用场景
  2. 用jackson转json_用Jackson编写大JSON文件
  3. C++ 0x: 内存模型
  4. bzoj1211 [HNOI2004]树的计数 prufer序列+组合数
  5. 名片识别信息分类python_python文字识别
  6. laravel 扩展包
  7. 语言 蜗牛爬树问题_趣数课堂:小学奥数蜗牛爬井问题,再加一只乌龟,你算不出来了吧...
  8. python画散点图带直线和图例_带图例的Matplotlib散点图
  9. 掌握面试——弹出框的实现
  10. 利用HTML5开发Android笔记(中篇)
  11. Rust: 逆序输出str
  12. python + opencv 中值滤波器、最大值滤波器和最小值滤波器
  13. java adminlte 使用_AdminLTE实现动态菜单
  14. python复制网页文字_我用Python在网上复制文字的几种实用方法
  15. HTML+CSS美食静态网页设计——简单我的家乡吉林
  16. CCproxy 实现http服务器代理
  17. java 成员变量什么时候初始化_Java中成员变量的初始化过程
  18. 暮光之城电影自制礼物大事记
  19. python爬虫字体反爬实习僧
  20. 教你 用c语言输出乘法口诀表 一giao我嘞gaiogiao

热门文章

  1. ERNIE-ViL-理解
  2. uml-----什么是UML
  3. 3D数学基础——矩阵的介绍与使用
  4. 软件项目管理文档模板目录
  5. 我把csdn版权标志隐藏了.
  6. IO编程,真的很简单
  7. Win10 开机突然蓝屏错误代码0xc0000001安全模式也进不了,不用重装系统怎么修复?(已解决)八个解决参考方案
  8. Echarts (option.yAxis) Y轴 的属性
  9. Python学习基础笔记三十二——正则表达式
  10. mos管的rc吸收电路计算_RC吸收计算应用