在之前的一篇博客中L1正则化及其推导推导证明了L1正则化是如何使参数稀疏化人,并且提到过L1正则化如果从贝叶斯的观点看来是Laplace先验,事实上如果从贝叶斯的观点,所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化,也顺便证明Gauss(高斯)先验会导出L2正则化。
最大似然估计

很多人对最大似然估计不明白,用最简单的线性回归的例子来说:如果有数据集(X,Y)
,并且Y是有白噪声(就是与测量得到的Y与真实的Yreal有均值为零的高斯分布误差),目的是用新产生的X来得到Y

。如果用线性模型来测量,那么有:

f(X)=∑i(xiθi)+ϵ=XθT+ϵ(1.1)

其中X=(x1,x2…xn)
,ϵ是白噪声,即ϵ∼N(0,δ2)。那么于一对数据集(Xi,Yi)来用,在这个模型中用Xi得到Yi的概率是Yi∼N(f(Xi),δ2)

P(Yi|Xi,θ)=1δ2π−−√exp(−∥f(Xi)−Yi∥22δ2)(1.2)

假设数据集中每一对数据都是独立的,那么对于数据集来说由X
得到Y

的概率是:

P(Y|X,θ)=∏i1δ2π−−√exp(−∥f(Xi)−Yi∥22δ2)(1.3)

根据决策论,就可以知道可以使概率P(Y|X,θ)
最大的参数θ∗就是最好的参数。那么我们可以直接得到最大似然估计的最直观理解:对于一个模型,调整参数θ,使得用X得到Y的概率最大。那么参数θ

就可以由下式得到:

θ∗=argmaxθ(∏i1ϵ2π−−√exp(−∥f(Xi)−Yi∥22δ2))=argmaxθ(−12δ2∑i∥f(Xi)−Yi∥2+ ∑iln(δ2π−−√))=argminθ(∑i∥f(Xi)−Yi∥2)(1.4)

这个就是最小二乘计算公式。
Laplace分布

Laplace概率密度函数分布为:

f(x|μ,b)=12bexp(−|x−μ|b)(2.1)

分布的图像如下所示:

图1 Laplace分布
我们能够看出拉普拉斯分布是一个类似正太分布的值
当均值u恒定的时候,我们减小b值(类似正太分布的均值),那么得到的图也就越集中,
之所以laplace分布是一个尖点,是因为绝对值在均值附件就是这样的一种情况,和正太分布还是有差距的。

可以看到Laplace分布集中在μ
附近,而且b

越小,数据的分布就越集中。
Laplace先验导出L1正则化

先验的意思是对一种未知的东西的假设,比如说我们看到一个正方体的骰子,那么我们会假设他的各个面朝上的概率都是1/6
,这个就是先验。但事实上骰子的材质可能是密度不均的,所以还要从数据集中学习到更接近现实情况的概率。同样,在机器学习中,我们会根据一些已知的知识对参数的分布进行一定的假设,这个就是先验。有先验的好处就是可以在较小的数据集中有良好的泛化性能,当然这是在先验分布是接近真实分布的情况下得到的了,从信息论的角度看,向系统加入了正确先验这个信息,肯定会提高系统的性能。我们假设参数θ

是如下的Laplace分布的,这就是Laplace先验:

P(θi)=λ2exp(−λ|θi|)(3.1)

其中λ
是控制参数θ集中情况的超参数,λ

越大那么参数的分布就越集中在0附近。

在前面所说的最大似然估计事实上是假设了θ
是均匀分布的,也就是P(θ)=Constant

,我们最大化的要后验估计,即是:

θ∗=argmaxθ(∏iP(Yi|Xi,θ)∏iP(θi))=argminθ(∑i∥f(Xi)−Yi∥2+∑iln(P(θi)))(3.2)

如果是Laplace先验,将式(3.1)
代入到式(3.2)

中可得:

θ∗=argminθ(∑i∥f(Xi)−Yi∥2+λ∑i|θi|))(3.3)

这就是由Laplace导出L1正则化,我在之前的一篇博客中L1正则化及其推导分析过λ

越大,那么参数的分布就越集中在0附近,这个与Laplace先验的分析是一致的。
Gauss先验导出L2正则化

到这里,我们可以很轻易地导出L2正则化,假设参数θ

的分布是符合以下的高斯分布:

P(θi)=λπ−−√exp(−λ∥θi∥2)(3.4)

代入式(3.2)

可以直接得到L2正则化:

θ∗=argminθ(∑i∥f(Xi)−Yi∥2+λ∑i∥θi∥2))(3.5)
公式不想编辑,这是原文的转载连接
https://www.cnblogs.com/heguanyou/p/7688344.html

Laplace(拉普拉斯)先验与L1正则化相关推荐

  1. 正则项的原理、梯度公式、L1正则化和L2正则化的区别、应用场景

    先对"L1正则化和L2正则化的区别.应用场景"给出结论,具体见后面的原理解释: L1正则化会产生更稀疏的解,因此基于L1正则化的学习方法相当于嵌入式的特征选择方法. L2正则化计算 ...

  2. L1正则化与L2正则化详解

    L1.L2正则化 什么是正则化? L1.L2正则化公式 正则化的作用 为什么加入L1正则化的模型会更稀疏 1.梯度视角 2.解空间形状视角 为何黄色区域为解空间? 3.函数叠加视角 为何L1正则化可将 ...

  3. L1正则化、L2正则化的多角度分析和概率角度的解释

    L1正则化.L2正则化的公式如下 min ⁡ w L 1 ( w ) = min ⁡ w f ( w ) + λ n ∑ i = 1 n ∣ w i ∣ min ⁡ w L 2 ( w ) = min ...

  4. L1正则化与L2正则化

    1.1-范数,2-范数 1-范数: 2-范数:2-范数就是通常意义下的距离 2.L1和L2正则化 我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度 ...

  5. L1正则化和L2正则化的区别

    文章目录 前言 一.L1和L2正则化是什么? 二.区别 三.其他问题 前言 在防止过拟合的方法中有L1正则化和L2正则化,那么这两者有什么区别呢? 一.L1和L2正则化是什么? L1和L2是正则化项, ...

  6. PyTorch实现L2和L1正则化的方法 | CSDN博文精选

    作者 | pan_jinquan 来源 | CSDN博文精选 目录 1.torch.optim优化器实现L2正则化 2.如何判断正则化作用了模型? 2.1未加入正则化loss和Accuracy 2.1 ...

  7. R语言基于glmnet构建分类模型并可视化特征系数(coefficient)以及L1正则化系数(lambda)实战

    R语言基于glmnet构建分类模型并可视化特征系数(coefficient)以及L1正则化系数(lambda)实战 # 导入测试数据集 data(BinomialExample) x <- Bi ...

  8. R语言基于glmnet构建Logistic回归模型使用L1正则化并可视化系数及最佳lambda值

    R语言基于glmnet构建Logistic回归模型使用L1正则化并可视化系数及最佳lambda值 Glmnet主要用于拟合广义线性模型.筛选可以使loss达到最小的正则化参数lambda.该算法非常快 ...

  9. L1正则化为什么又叫做稀疏因子?

    L1正则化对应的最经典模型为LASSO模型,LASSO的全称为:Least absolute shrinkage and selection operator sklearn中对应的模型为LASSO以 ...

最新文章

  1. CentOS安装配置之基本
  2. c语言十万以内超级素数,用C语言求素数的优化
  3. optee对std smc的处理的详解
  4. 【百度地图API】如何制作可拖拽的沿道路测距
  5. 期货与期权(part1)--衍生品
  6. 那些奇奇怪怪的男性用品......
  7. 12000+字Java反射,一起全面了解Java反射机制,为学习框架铺路
  8. linux shell 特殊符号的表示
  9. TrueNAS SCALE是什么
  10. 洛谷 P1118 数字三角形游戏 Label:dfs
  11. 白话之jsonp跨域原理分析
  12. PLC项目增频减频部分流程图(修改版)
  13. linux自动实现项目跑,利用Linux中的crontab实现分布式项目定时任务功能
  14. java微信项目开发教程,Java+微信公众号开发过程步骤详解
  15. 前端原生开发解决方案
  16. 手电筒安卓_开号以来安卓软件汇总!
  17. 拷贝temp文件下的麦客疯临时文件到当前目录 .
  18. lga2066服务器准系统,4094个针脚,AMD 16核桌面处理器插槽比LGA2066还要大
  19. 例如筋斗云的效果,但不通过offset定位的flag标记
  20. java 取当天0点_java 获取当天(今日)零点零分零秒

热门文章

  1. Capl编程xml标签语法(4) —— CAN报文周期检测/错误帧检测/信号改变检测。。。
  2. 深度探索C++对象模型第2章 构造函数语义学
  3. PNAS:眼动证据支持行为的“模式完成”理论
  4. 面向中小企业的SpringBoot管理系统,拿来学习真香
  5. oracle 中文导入 乱码 ZHS16GBK AL32UTF8
  6. 【OTT】OTT Media Grinder (OTT TV 质量评价设备)
  7. ElasticSearch基础:从倒排索引说起,快速认知ES
  8. Extmail修改模板
  9. 微信公众平台-openid获取
  10. 面向考研的数据结构板子