稀疏矢量通常包含许多维度。创建特征组合会导致包含更多维度。由于使用此类高维度特征矢量,因此模型可能会非常庞大,并且需要大量的 RAM。

在高维度稀疏矢量中,最好尽可能使权重正好降至 0。正好为 0 的权重基本上会使相应特征从模型中移除。 将特征设为 0 可节省 RAM 空间,且可以减少模型中的噪点。

以一个涵盖全球地区(不仅仅只是涵盖加利福尼亚州)的住房数据集为例。如果按分(每度为 60 分)对全球纬度进行分桶,则在一次稀疏编码过程中会产生大约 1 万个维度;如果按分对全球经度进行分桶,则在一次稀疏编码过程中会产生大约 2 万个维度。这两种特征的特征组合会产生大约 2 亿个维度。这 2 亿个维度中的很多维度代表非常有限的居住区域(例如海洋里),很难使用这些数据进行有效泛化。 若为这些不需要的维度支付 RAM 存储费用就太不明智了。 因此,最好是使无意义维度的权重正好降至 0,这样我们就可以避免在推理时支付这些模型系数的存储费用。

我们或许可以添加适当选择的正则化项,将这种想法变成在训练期间解决的优化问题。

L2 正则化能完成此任务吗?遗憾的是,不能。 L2 正则化可以使权重变小,但是并不能使它们正好为 0.0。

另一种方法是尝试创建一个正则化项,减少模型中的非零系数值的计数。只有在模型能够与数据拟合时增加此计数才有意义。 遗憾的是,虽然这种基于计数的方法看起来很有吸引力,但它会将我们的凸优化问题变为非凸优化问题,即 NP 困难。 (如果您仔细观察,便会发现它与背包问题关联。) 因此,L0 正则化这种想法在实践中并不是一种有效的方法。

不过,L1 正则化这种正则化项的作用类似 L0,但它具有凸优化的优势,可有效进行计算。因此,我们可以使用 L1 正则化使模型中很多信息缺乏的系数正好为 0,从而在推理时节省 RAM。


L1 和 L2 正则化

L2 和 L1 采用不同的方式降低权重:

  • L2 会降低权重2。
  • L1 会降低 |权重|。

因此,L2 和 L1 具有不同的导数:

  • L2 的导数为 2 * 权重。
  • L1 的导数为 k(一个常数,其值与权重无关)。

您可以将 L2 的导数的作用理解为每次移除权重的 x%。如 Zeno 所知,对于任意数字,即使按每次减去 x% 的幅度执行数十亿次减法计算,最后得出的值也绝不会正好为 0。(Zeno 不太熟悉浮点精度限制,它可能会使结果正好为 0。)总而言之,L2 通常不会使权重变为 0。

您可以将 L1 的导数的作用理解为每次从权重中减去一个常数。不过,由于减去的是绝对值,L1 在 0 处具有不连续性,这会导致与 0 相交的减法结果变为 0。例如,如果减法使权重从 +0.1 变为 -0.2,L1 便会将权重设为 0。就这样,L1 使权重变为 0 了。

L1 正则化 - 减少所有权重的绝对值 - 证明对宽度模型非常有效。


引用

分类 (Classification):预测偏差

转载于:https://www.cnblogs.com/taro/p/8643393.html

正则化--L1正则化(稀疏性正则化)相关推荐

  1. 为什么L1正则化会有稀疏性?为什么L1正则化能进行内置特征选择?

    # 个人认为,这两个应该是同一个问题. 首先给大家推荐一个比较直观地搞懂L1和L2正则化的思考,有视频有图像,手动赞! https://zhuanlan.zhihu.com/p/25707761 当然 ...

  2. [机器学习速成课程] 稀疏性正则化 (Regularization for Sparsity)-学习笔记

    稀疏性和 L1 正则化 学习目标: 计算模型大小 通过应用 L1 正则化来增加稀疏性,以减小模型大小 降低复杂性的一种方法是使用正则化函数,它会使权重正好为零.对于线性模型(例如线性回归),权重为零就 ...

  3. 机器学习速成课程 | 练习 | Google Development——编程练习:稀疏性和 L1 正则化

    稀疏性和 L1 正则化 学习目标: 计算模型大小 通过应用 L1 正则化来增加稀疏性,以减小模型大小 降低复杂性的一种方法是使用正则化函数,它会使权重正好为零.对于线性模型(例如线性回归),权重为零就 ...

  4. 神经网络中,正则化L1与L2的区别、如何选择以及代码验证

    所谓的正则效果就是: 数学上具备修补项的某些特性. 讲人话,到底什么是正则化? 就是让我们本科时学过的拉格朗日法求极值得到的解集具有某些特征. L1:(拉普拉斯分布的指数项) 结果会比较稀疏(接近0, ...

  5. L1正则化与稀疏性、L1正则化不可导问题

    转:L1正则化与稀疏性 坐标轴下降法(解决L1正则化不可导的问题).Lasso回归算法: 坐标轴下降法与最小角回归法小结 L1正则化使得模型参数具有稀疏性的原理是什么? 机器学习经典之作<pat ...

  6. L1正则化及其稀疏性的傻瓜解释

    本文翻译自:L1 Norm Regularization and Sparsity Explained for Dummies, 特别感谢原作者Shi Yan! 0. 前言 好吧,我想我就是很笨的那一 ...

  7. L1、L2正则化与稀疏性

    禁止转载,谢谢! 1.正则化(Regularization)的基本概念 - 什么是正则化/如何进行正则化   定义:在机器学习中正则化(regularization)是指在模型的损失函数中加上一个正则 ...

  8. L1正则化与嵌入式特征选择(稀疏性)

    岭回归的历史可追溯到1943年由A.Tikhonov发表在<苏联科学院院刊>上的一篇文章,我们知道计算机是在1946年发明出来的,由此可见,这是一个历史悠久的算法,至今依旧有生命力,属于经 ...

  9. 稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization

    Sparsity 是当今机器学习领域中的一个重要话题.John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到: Some current challenges ...

最新文章

  1. 外省籍进城务工人员随迁子女在浙江就地升学政策出台
  2. BCH预挖?不存在的
  3. 死磕 java集合之TreeMap源码分析(一)——红黑树全解析
  4. .NET Core 中导入导出Excel
  5. python根据矩阵数值大小涂上不同深浅颜色
  6. Java设计模式学习总结(13)——结构型模式之享元模式
  7. java bo对象_java的几种对象(PO,VO,DAO,BO,POJO)解释 (转)
  8. Linux触摸屏驱动分析(6410) -- s3c-ts
  9. SQLite数据库的使用——利用命令行或Navicat Premium创建数据库
  10. 无锡公交也有两套支付
  11. MYSQL详解及语法大全
  12. 密码技术学习(8.1)-数字证书简介
  13. ZYT and LBC
  14. realme Q2Pro和红米x10哪个好
  15. PS初学者的一些实用技巧
  16. oracle 认识点概述(一)
  17. VisualStudio各个版本彻底干净卸载
  18. 使用git上传本地项目到码云
  19. 为什么我要用 Node.js? 案例逐一介绍
  20. 有符号二进制乘法及MATLAB有符号数16进制到2进制的转换问题

热门文章

  1. Win11或win10开机自启文件夹(备用)
  2. 【转】ActionScript,Flash,Flash/Flex Builder,FlashPlayer,AIR,swf,swc,swz之间的区别...
  3. 43个云平台通过云计算服务安全评估:阿里云、腾讯云、华为云、曙光云、新华云、金山云、电科云、浪潮云、紫光云、深信服等...
  4. 【FPGA】基于FPGA的RS码模块设计
  5. EATool-实用型CAD/GIS集成勘测软件
  6. 前端css实现收起展开组件
  7. 【狮子数学】05极限的计算——函数极限的计算
  8. Python——控制窗体的显示和隐藏以及位置和大小
  9. 中国计算机专业研究生排名,中国计算机专业排名
  10. CAD怎么快速查看图纸文件呢?CAD怎么实现快速看图?