1. L1正则化,也称Lasso回归

1.1 含义

权值向量  中各元素的绝对值之和,一般记作   。

1.2  公式表示

添加了L1正则化的损失函数一般可表示为:

1.3 作用

L1正则常被用来解决过拟合问题;

L1正则化容易产生稀疏权值矩阵(更容易得到稀疏解),即产生一个稀疏模型(较多参数为0),因此也可用于特征选择。

1.4 为什么L1(相对L2)更容易获得稀疏解 或者 0解

L1是舍弃掉一些不重要的特征,L2是控制所有特征的权重。

a. 从公式角度解释

假设只有一个参数 w,损失函数 L(w)  , 分别加上L1和L2损失函数可得:

假设 L(w) 在 某一个样本  0 处 的导数是 d0

当结合L2正则时候的导数是:

当结合L1正则时候的导数是(L1损失在 w = 0处不可导,分 0 - 和 0 +):

结论:当结合L2正则的损失函数,导数结果仍然是 d0;结合L1正则的损失函数会有一个突变,从

 到 ,只要满足  或  和  异号,则在w = 0处,损失函数有极值(极小值),在优化器优化过程中,很容易将结果收敛到该极小值点上,也就是 w = 0。相比L1正则,需要 d0 = 0,这样的条件明显更为严苛。

b. 从优化问题视角 + 二维图示例 + 多维扩展,方向解释

c. 从梯度角度来看

结论:加入L1正则的导数形式,无论 wi 大小如何,sgn(wi) 的结果是一个常数,因此惩罚力度不变或者说仍然很大,使得L1将参数惩罚到0的概率增加;反观L2正则的导数形式,在 wi < 1 时候,尾项惩罚作用小,很难将参数惩罚到0,实际上就是使每个特征都得到尽量均衡的权重,因此适用于解决普通的过拟合问题,即从参数分布(让分布尽可能的均匀)的角度解决过拟合的问题。

d. 从概率学角度

加入正则项,相当于对参数 w 增加先验假设,要求 w 满足某一种分布。

L1正则化相当于为 w 加入 “拉普拉斯分布” 的先验;L2正则化相当于为 w 加入 “高斯分布” 的先验。

结论:拉普拉斯先验在0点附近分布密度大于高斯分布,最终解将更稀疏。

2. L2正则化

2.1 含义

权值向量/矩阵  中各元素的平方和,然后对“和”求平方根,记作  。

2.2 公式表示

2.3 作用

L2正则化 可防止模型过拟合;至于为什么见下一篇文章,不定期更新

能够得到较为平滑(smooth)的解。

3. L1和L2正则化的适用场景

结论1 :从理论上来看,参数如果服从高斯分布就用L2正则化;服从拉普拉斯分布就用L1。

结论2 :添加正则化相当于参数的解空间添加了约束,限制了模型的复杂度,缓解过拟合。不过L1和L2正则化项是从不同的角度解决过拟合的。

结论3 :L1正则项是从改变模型结构的角度(减少模型参数的数量 或者 筛除无效特征,使无效特征对应的参数为0)解决过拟合,使的模型更加简单。

结论4 :L2正则项使模型尽量不依赖于某小部分特征,使模型更倾向于使用所有输入特征,不恰当的讲就是使每个特征都得到尽量均衡的权重(对于重要、非重要的特征也会有比较明显的区分);它是从参数分布(让分布尽可能的均匀)的角度解决过拟合。

结论5 :L1正则化可以获得稀疏解,因此适用于:模型剪枝、模型压缩、特征选择

结论6 :L2正则化可以获得平滑(smooth)解。

L1、L2正则化的原理及适用场景相关推荐

  1. 正则项的原理、梯度公式、L1正则化和L2正则化的区别、应用场景

    先对"L1正则化和L2正则化的区别.应用场景"给出结论,具体见后面的原理解释: L1正则化会产生更稀疏的解,因此基于L1正则化的学习方法相当于嵌入式的特征选择方法. L2正则化计算 ...

  2. 手推公式带你轻松理解L1/L2正则化

    文章目录 前言 L1/L2正则化原理 从数学的角度理解L1/L2正则化 从几何的角度理解L1/L2正则化 L1/L2正则化使用情形 前言 L1/L2正则化的目的是为了解决过拟合,因此我们先要明白什么是 ...

  3. L1,L2正则化分析

    1. 优化角度分析 1).L2正则化的优化角度分析 在限定的区域,找到使 最小的值. 图形表示为: 上图所示,红色实线是正则项区域的边界,蓝色实线是 的等高线,越靠里的等高圆, 越小,梯度的反方向是 ...

  4. L0,L1,L2正则化浅析

    在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...

  5. L1 L2正则化和优化器的weight_decay参数

    L1正则和L2正则的效果有什么差异?为什么? 角度一:解空间形状 通常认为L1 正则化可以产生稀疏权值矩阵,即产生一个参数稀疏的模型. 而L2 正则化可以让模型的参数取绝对值较小的数. 考虑两种正则化 ...

  6. L1 L2 正则化区别

    文章一 文章二 机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit).即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力.为了避免过拟合,最常用的 ...

  7. L1,L2正则化理解-奥卡姆剃刀(Occam's razor)原理

    L0.L1与L2范数转自:zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的 ...

  8. CPU缓存L1/L2/L3工作原理

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 作者 | 小麦大叔 来源 | 公众号「朱小厮的博客」 一 ...

  9. 详解L1和L2正则化

    大纲: L1和L2的区别以及范数相关知识 对参数进行L1和L2正则化的作用与区别 pytorch实现L1与L2正则化 对特征进行L2正则化的作用 L1和L2的区别以及范数   使用机器学习方法解决实际 ...

最新文章

  1. 问题文件Android Studio 安装完成不能打开等问题解决记录
  2. java文件端点续传效果图_Java单依赖性Dockerized HTTP端点
  3. 解决Ubuntu下切换到root用户后没有声音问题
  4. django无法生成自定义表(mysql)
  5. 我的敏捷生活(1)--where am I
  6. 【开发工具IDE】eclipse的web项目的tomcat安装部署问题
  7. 闭包:学习Javascript闭包(Closure)
  8. 中小企业CRM评测-销售管理_任我行
  9. 蓝牙AVRCP协议常见数据包分析
  10. powerbi嵌入到HTML5,如何把Power BI嵌入到Web應用中
  11. 你好,李焕英;再见,唐探3?
  12. 【解决篇】映美FP-530K+打印发票卡纸,色带安装问题
  13. 即时通讯IM 与系统集成
  14. 通过JSP页面访问Servlet
  15. Excel技巧 - 长数字串如何筛选重复项
  16. Linux误删文件或程序如何恢复
  17. VirtualBox:无法访问共享文件夹
  18. NLP必不可少的中文数据资源
  19. innoDB可重复读级别是否可以隔离幻行读
  20. 03-面向对象之面向对象基础

热门文章

  1. 人工智能创业公司的项目BP
  2. android onkeydown()简介
  3. 通过 Q-learning 深入理解强化学习-附带代码实现
  4. oracle数据库分页查询
  5. 【时间序列分析】12. ARMA(1,1)模型
  6. 常见数据结构在内存中是怎么存储的
  7. 一篇 CVPR 2022顶会论文是如何炼成的,顶会一作亲述
  8. 大数据与云计算技术---(一)hadoop大数据平台
  9. Mendix敏捷开发零基础学习《二》-进阶(Microflow微流、表单验证、运算符、条件判断、数据嵌套、触发器、Debug问题跟踪、版本管理)
  10. mendix费用价格