原文链接: http://chenhao.space/post/b190d0eb.html

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择

所谓稀疏模型就是模型中很多的参数是0,这就相当于进行了一次特征选择,只留下了一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。

那么问题来了,为什么L1正则化会产生稀疏解?

L1/L2正则化损失函数

线性回归L1正则化损失函数:
min⁡w[∑i=1N(wTxi−yi)2+λ∥w∥1]........(1)\min_w [\sum_{i=1}^{N}(w^Tx_i - y_i)^2 + \lambda \|w\|_1 ]........(1) wmin​[i=1∑N​(wTxi​−yi​)2+λ∥w∥1​]........(1)
线性回归L2正则化损失函数:
min⁡w[∑i=1N(wTxi−yi)2+λ∥w∥22]........(2)\min_w[\sum_{i=1}^{N}(w^Tx_i - y_i)^2 + \lambda\|w\|_2^2] ........(2) wmin​[i=1∑N​(wTxi​−yi​)2+λ∥w∥22​]........(2)

正则化作用

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。

L2正则化可以防止模型过拟合,一定程度上,L1也可以防止过拟合。

L1正则化与稀疏性

事实上,”带正则项”和“带约束条件”是等价的。为了约束 www 的可能取值空间从而防止过拟合,我们为该优化问题加上一个约束,就是 www 的L1范数不能大于m:

{min⁡∑i=1N(wTxi−yi)2s.t.∥w∥1⩽m.........(3)\begin{cases} \min \sum_{i=1}^{N}(w^Tx_i - y_i)^2 \\ s.t. \|w\|_1 \leqslant m.\end{cases}........(3) {min∑i=1N​(wTxi​−yi​)2s.t.∥w∥1​⩽m.​........(3)

(1)(1)(1)式和(3)(3)(3)式是等价的,为了求解带约束条件的凸优化问题,写出拉格朗日函数:

∑i=1N(wTxi−yi)2+λ(∥w∥1−m)........(4)\sum_{i=1}^{N}(w^Tx_i - y_i)^2 + \lambda (\|w\|_1-m)........(4) i=1∑N​(wTxi​−yi​)2+λ(∥w∥1​−m)........(4)

设 w∗w^∗w∗ 和 λ∗\lambda^∗λ∗ 是原问题和对偶问题的最优解,则根据???条件得:

{0=∇w[∑i=1N(W∗Txi−yi)2+λ∗(∥w∥1−m)]0⩽λ∗.........(5)\begin{cases} 0 = \nabla_w[\sum_{i=1}^{N}(W^{*T}x_i - y_i)^2 + \lambda^* (\|w\|_1-m)] \\ 0 \leqslant \lambda^*.\end{cases}........(5) {0=∇w​[∑i=1N​(W∗Txi​−yi​)2+λ∗(∥w∥1​−m)]0⩽λ∗.​........(5)

(5)(5)(5)式中的第一个式子不就是 w∗w^*w∗ 为带 L2 正则项的优化问题的最优解的条件嘛,而 λ∗\lambda^*λ∗ 就是L2正则项前面的正则参数。

由上面公式推导可看出,L1正则项相当于为参数定义了一个棱形的解空间(因为必须保证L1范数不能大于m,L1范数的值又等于所有参数绝对值之和,即 ∣w1∣+∣w2∣+∣w3∣+...+∣wn∣⩽m|w_1|+|w_2|+|w_3|+...+|w_n| \leqslant m∣w1​∣+∣w2​∣+∣w3​∣+...+∣wn​∣⩽m),假设参数为2个,即 ∣w1∣+∣w2∣⩽m|w_1|+|w_2| \leqslant m∣w1​∣+∣w2​∣⩽m ,我们画出它的解空间:

设L1正则化损失函数:J=J0+λ∑w∣w∣J = J_0 + \lambda \sum_{w} |w|J=J0​+λ∑w​∣w∣ ,其中 J0=∑i=1N(wTxi−yi)2J_0 = \sum_{i=1}^{N}(w^Tx_i - y_i)^2J0​=∑i=1N​(wTxi​−yi​)2 是原始损失函数,后面那一项是L1正则化项,λ\lambdaλ 是正则化系数。图中的等线图就是 J0J_0J0​ ,棱形是L1正则化项的解空间,当它们俩在某点处相交时,该点就是最优解。很明显,在棱形的解空间中,棱角顶点很容易与等线图相交。

在上图中,它们相交就意味中 w1w_1w1​ 和 w2w_2w2​ 至少有一个为0,当参数更多时也是同理。

L2正则化的空间解如下图(公式推导跟L1差不多):

参考资料

  1. 百面机器学习
  2. 深入理解L1、L2正则化

L1正则项-稀疏性-特征选择相关推荐

  1. 为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?

    # 个人认为,这两个应该是同一个问题. 首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考,有视频有图像,手动赞! https://zhuanlan.zhihu.com/p/25707761 当然 ...

  2. L1正则化与稀疏性、L1正则化不可导问题

    转:L1正则化与稀疏性 坐标轴下降法(解决L1正则化不可导的问题).Lasso回归算法: 坐标轴下降法与最小角回归法小结 L1正则化使得模型参数具有稀疏性的原理是什么? 机器学习经典之作<pat ...

  3. L1、L2正则化与稀疏性

    禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化   定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...

  4. L1为什么具有稀疏性

    解释一: 假设费用函数 L 与某个参数 x 的关系如图所示: 则最优的 x 在绿点处,x 非零. 现在施加 L2 regularization,新的费用函数()如图中蓝线所示: 最优的 x 在黄点处, ...

  5. 机器学习速成课程 | 练习 | Google Development——编程练习:稀疏性和 L1 正则化

    稀疏性和 L1 正则化 学习目标: 计算模型大小 通过应用 L1 正则化来增加稀疏性,以减小模型大小 降低复杂性的一种方法是使用正则化函数,它会使权重正好为零.对于线性模型(例如线性回归),权重为零就 ...

  6. L1正则化及其稀疏性的傻瓜解释

    本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一 ...

  7. 稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization

    Sparsity 是当今机器学习领域中的一个重要话题.John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到: Some current challenges ...

  8. 机器学习-过拟合、正则化、稀疏性、交叉验证概述

    在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是模型在总体样本上的误差.对于一个好的模型应该是经验误差约等 ...

  9. 正则化,岭回归Shrinkage,lasso稀疏性推导和论文总结

    参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selec ...

  10. 机器学习/算法面试笔记1——损失函数、梯度下降、优化算法、过拟合和欠拟合、正则化与稀疏性、归一化、激活函数

    正值秋招,参考网络资源整理了一些面试笔记,第一篇包括以下7部分. 1.损失函数 2.梯度下降 3.优化算法 4.过拟合和欠拟合 5.正则化与稀疏性 6.归一化 7.激活函数 损失函数 损失函数分为经验 ...

最新文章

  1. 编译原理词法分析实验
  2. java 进阶 知乎_(二)零基础写Java知乎爬虫之进阶篇
  3. 计算机科学中抽象的作用,抽象释义
  4. 计算机二级法律一班题目,湖南省计算机二级考试  程序设计题目精选30道
  5. javascript怎么禁用浏览器后退按钮
  6. php中NULL、false、0、 有何区别?
  7. 模型算法_详解SVM模型之SMO算法
  8. 十一、JAVA接口的定义和使用
  9. vtd xml java_新兴XML处理方法VTD-XML介绍
  10. PADS2007小技巧收集----本人总结
  11. 干货!Web 网页设计规范
  12. 全网最全的 Java 各类技术栈架构图汇总(建议收藏)
  13. iPad如何访问共享文件夹
  14. MapReduce实现商品推荐算法(用户购买向量*商品同现矩阵)
  15. 费马小定理 (证明)
  16. 『ACM』ACM部分训练日记(以此纪念和队友与FLS一起度过的快乐时光)
  17. sklearn梯度提升树(GBDT)调参小结
  18. Swagger2快速入门
  19. centos7安装docker并配置daocloud
  20. 实现uniapp的app和小程序开发中能使用axios进行跨域网络请求,并支持携带cookie

热门文章

  1. 资源屋分享两款导航网站源码 支持自动收录、自动审核、自动检测友链功能
  2. Dell/R730XD sas盘 raid0与JBOD性能比较
  3. Jetpack:Room超详细使用踩坑指南!
  4. 词霸天下---177 词根 【 -vast- = -wast- 空,荒废 】仅供学习使用
  5. Windows 打开和关闭默认共享方法汇总
  6. R语言 dbWriteTable 写入数据库为空和乱码问题
  7. 北京第一年-OpenGL-7 egl wgl glx agl glew window display surface context rendertarget glfw都是什么?
  8. Hive系列(三)实操
  9. sd卡数据恢复源码android,SD卡数据恢复非常简单,想学的看过来!
  10. Linux代理服务器 Centos Nginx安装、反向代理配置、Nginx开机自启动及日志每天自动分割压缩