文章目录

  • 1. 为什么希望模型参数具有稀疏性?
  • 2. L1正则化使得模型参数具有稀疏性的原理是什么?
    • 角度:解空间形状

插眼:

  • 百面机器学习—1.特征工程
  • 百面机器学习—2. 特征工程与模型评估要点总结
  • 百面机器学习—3.逻辑回归与决策树要点总结
  • 百面机器学习—4.SVM模型基础知识
  • 百面机器学习—5.SVM要点总结
  • 百面机器学习—6.PCA与LDA要点总结
  • 百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结
  • 百面机器学习—8.概率图模型之HMM模型
  • 百面机器学习—9.前馈神经网络面试问题总结
  • 百面机器学习—10.循环神经网络面试问题总结
  • 百面机器学习—11.集成学习(GBDT、XGBoost)面试问题总结
  • 百面机器学习—12.优化算法


  • 代码部分可参考:数据预处理与特征工程—9.Lasso算法实现特征选择

1. 为什么希望模型参数具有稀疏性?

  稀疏性,说白了就是模型的很多参数是0。这相当于对模型进行了一次特征选择,只留下一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。在实际应用中,机器学习模型的输入动辄几百上千万维,稀疏性就显得更加重要。

2. L1正则化使得模型参数具有稀疏性的原理是什么?

角度:解空间形状

  在二维的情况下,黄色的部分是L2和L1正则项约束后的解空间,绿色的等高线是凸优化问题中目标函数的等高线,


由图可知,L2正则项约束后的解空间是圆形,而L1正则项约束的解空间是多边形。显然,多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。这个也是常见的回答。但是几个关键问题回答的比较笼统

  1. 为什么加入正则项就是定义了一个解空间约束?
  2. 为什么L1和L2的解空间是不同的?

  上面的回答不够精确,其实可以通过KKT条件来作答。
  事实上,“带正则项”和“带约束条件”是等价的。为了约束w的可能取值空间从而防止过拟合,我们为该最优化问题加上一个约束,就是w的L2范数的平方不能大于m:

为了解带约束的凸优化问题,我们写出拉格朗日函数

若w∗w^*w∗和λ∗\lambda^{*}λ∗分别是原问题和对偶问题的最优解,则根据KKT条件,它们应满足:

L2正则化相当于为参数定义了一个圆形的解空间(因为必须保证L2范数不能大于m ),而L1正则化相当于为参数定义了一个棱形的解空间。如果原问题目标函数的最优解不是恰好落在解空间内,那么约束条件下的最优解一定是在解空间的边界上,而L1“棱角分明”的解空间显然更容易与目标函数等高线在角点碰撞,从而产生稀疏解。

关于这个问题,书上还有另外两种解释,我觉得这种最好,如有对其他两种解释感兴趣的,请自行查阅《百面机器学习》


如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!


百面机器学习—13.L1正则化与稀疏性相关推荐

  1. L1正则化与稀疏性、L1正则化不可导问题

    转:L1正则化与稀疏性 坐标轴下降法(解决L1正则化不可导的问题).Lasso回归算法: 坐标轴下降法与最小角回归法小结 L1正则化使得模型参数具有稀疏性的原理是什么? 机器学习经典之作<pat ...

  2. L1正则化及其稀疏性的傻瓜解释

    本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一 ...

  3. 正则化--L1正则化(稀疏性正则化)

    稀疏矢量通常包含许多维度.创建特征组合会导致包含更多维度.由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM. 在高维度稀疏矢量中,最好尽可能使权重正好降至 0.正好为 0 的 ...

  4. 机器学习/算法面试笔记1——损失函数、梯度下降、优化算法、过拟合和欠拟合、正则化与稀疏性、归一化、激活函数

    正值秋招,参考网络资源整理了一些面试笔记,第一篇包括以下7部分. 1.损失函数 2.梯度下降 3.优化算法 4.过拟合和欠拟合 5.正则化与稀疏性 6.归一化 7.激活函数 损失函数 损失函数分为经验 ...

  5. 机器学习中L1正则化和L2正则化是什么?区别是什么?

    机器学习中L1正则化和L2正则化是什么?区别是什么? 我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项. 结构风险最小化: 在经验风险最小化 ...

  6. 机器学习入门13 - 正则化:稀疏性 (Regularization for Sparsity)

    原文链接:https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/ 1- L₁正 ...

  7. 【机器学习】L1正则化与L2正则化详解及解决过拟合的方法

    在详细介绍L1与L2之前,先讲讲正则化的应用场景. 正则化方法:防止过拟合,提高泛化能力 所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越, ...

  8. 机器学习之L1正则化和L2正则化(附源码解析)

    前言 今天还是机器学习的基础知识内容,也是最基础的哈.首先说一下什么是正则化,其实它就是一个减少方差的策略.那么什么是方差呢?在这里也引入一个和方差相辅相成的概念--偏差. 偏差度量了学习算法的期望预 ...

  9. L1、L2正则化与稀疏性

    禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化   定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...

  10. 机器学习-过拟合、正则化、稀疏性、交叉验证概述

    在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是模型在总体样本上的误差.对于一个好的模型应该是经验误差约等 ...

最新文章

  1. 关于数据挖掘的几篇文章(1)
  2. 《Advanced Data Structures》读书笔记
  3. spring中的aop术语和细节
  4. 微软应提前发布专用于ARM处理器的Windows 8平板电脑系统
  5. 如何避免ajax重复请求?
  6. 我的Spring MVC第一个应用
  7. oracle怎么存视频地址,oracle的警告文件存储方式和地址
  8. Java学习之基本概念
  9. 极品五笔自定义字库(jpwb.emb)
  10. 关于Web网页设计规范简述
  11. 电脑上不了网,网络协商速率只有10M?
  12. mysql 查看slave状态_解读show slave status 命令判断MySQL复制同步状态
  13. 网站都变成灰色的了,代码是怎么实现的呢?
  14. 联想家悦微型计算机,联想家悦台式电脑拆机知识分享
  15. Springboot替换banner不管用?
  16. ubuntu 下 uml 工具
  17. Nanoprobes丨Nanogold 印迹和免疫化学技术
  18. 如何在 Java 应用程序中设置 HicariCP 连接池
  19. 设计之美 - 设计模式学习
  20. Spi通信,写操作时,发送缓冲区非空停留在while里面。arm a5与w5500芯片udp网络通信。网络调试助手界面及sscom无法点击

热门文章

  1. itsdangerous
  2. 最常用的css垂直居中方法
  3. 电子证书 DER PEM CRT CER
  4. IBM T43 开机停止在LOGO画面
  5. 算法导论2-4习题解答(合并排序算法)
  6. DLL中的自定义类型含有非导出公开字段,从而产生Release版本运行异常
  7. Jenkins持续集成环境常见问题分析及解决
  8. Visual Studio基于CMake配置opencv1.0.0、opencv2.2
  9. C++笔记之CopyFile和MoveFile的使用
  10. 2018ICPC赛后总结