Laplace（拉普拉斯）先验与L1正则化

在之前的一篇博客中L1正则化及其推导推导证明了L1正则化是如何使参数稀疏化人，并且提到过L1正则化如果从贝叶斯的观点看来是Laplace先验，事实上如果从贝叶斯的观点，所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化，也顺便证明Gauss（高斯）先验会导出L2正则化。
最大似然估计

很多人对最大似然估计不明白，用最简单的线性回归的例子来说：如果有数据集(X,Y)
，并且Y是有白噪声（就是与测量得到的Y与真实的Yreal有均值为零的高斯分布误差），目的是用新产生的X来得到Y

。如果用线性模型来测量，那么有：

f(X)=∑i(xiθi)+ϵ=XθT+ϵ(1.1)

其中X=(x1,x2…xn)
，ϵ是白噪声，即ϵ∼N(0,δ2)。那么于一对数据集(Xi,Yi)来用，在这个模型中用Xi得到Yi的概率是Yi∼N(f(Xi),δ2)

：

P(Yi|Xi,θ)=1δ2π−−√exp(−∥f(Xi)−Yi∥22δ2)(1.2)

假设数据集中每一对数据都是独立的，那么对于数据集来说由X
得到Y

的概率是：

P(Y|X,θ)=∏i1δ2π−−√exp(−∥f(Xi)−Yi∥22δ2)(1.3)

根据决策论，就可以知道可以使概率P(Y|X,θ)
最大的参数θ∗就是最好的参数。那么我们可以直接得到最大似然估计的最直观理解：对于一个模型，调整参数θ，使得用X得到Y的概率最大。那么参数θ

就可以由下式得到:

θ∗=argmaxθ(∏i1ϵ2π−−√exp(−∥f(Xi)−Yi∥22δ2))=argmaxθ(−12δ2∑i∥f(Xi)−Yi∥2+　∑iln(δ2π−−√))=argminθ(∑i∥f(Xi)−Yi∥2)(1.4)

这个就是最小二乘计算公式。
Laplace分布

Laplace概率密度函数分布为：

f(x|μ,b)=12bexp(−|x−μ|b)(2.1)

分布的图像如下所示：

图1 Laplace分布
我们能够看出拉普拉斯分布是一个类似正太分布的值
当均值u恒定的时候，我们减小b值（类似正太分布的均值），那么得到的图也就越集中，
之所以laplace分布是一个尖点，是因为绝对值在均值附件就是这样的一种情况，和正太分布还是有差距的。

可以看到Laplace分布集中在μ
附近，而且b

越小，数据的分布就越集中。
Laplace先验导出L1正则化

先验的意思是对一种未知的东西的假设，比如说我们看到一个正方体的骰子，那么我们会假设他的各个面朝上的概率都是1/6
，这个就是先验。但事实上骰子的材质可能是密度不均的，所以还要从数据集中学习到更接近现实情况的概率。同样，在机器学习中，我们会根据一些已知的知识对参数的分布进行一定的假设，这个就是先验。有先验的好处就是可以在较小的数据集中有良好的泛化性能，当然这是在先验分布是接近真实分布的情况下得到的了，从信息论的角度看，向系统加入了正确先验这个信息，肯定会提高系统的性能。我们假设参数θ

是如下的Laplace分布的，这就是Laplace先验：

P(θi)=λ2exp(−λ|θi|)(3.1)

其中λ
是控制参数θ集中情况的超参数，λ

越大那么参数的分布就越集中在0附近。

在前面所说的最大似然估计事实上是假设了θ
是均匀分布的，也就是P(θ)=Constant

，我们最大化的要后验估计，即是：

θ∗=argmaxθ(∏iP(Yi|Xi,θ)∏iP(θi))=argminθ(∑i∥f(Xi)−Yi∥2+∑iln(P(θi)))(3.2)

如果是Laplace先验，将式(3.1)
代入到式(3.2)

中可得：

θ∗=argminθ(∑i∥f(Xi)−Yi∥2+λ∑i|θi|))(3.3)

这就是由Laplace导出L1正则化，我在之前的一篇博客中L1正则化及其推导分析过λ

越大，那么参数的分布就越集中在0附近，这个与Laplace先验的分析是一致的。
Gauss先验导出L2正则化

到这里，我们可以很轻易地导出L2正则化，假设参数θ

的分布是符合以下的高斯分布：

P(θi)=λπ−−√exp(−λ∥θi∥2)(3.4)

代入式(3.2)

可以直接得到L2正则化：

θ∗=argminθ(∑i∥f(Xi)−Yi∥2+λ∑i∥θi∥2))(3.5)
公式不想编辑，这是原文的转载连接
https://www.cnblogs.com/heguanyou/p/7688344.html

Laplace（拉普拉斯）先验与L1正则化相关推荐

正则项的原理、梯度公式、L1正则化和L2正则化的区别、应用场景
先对"L1正则化和L2正则化的区别.应用场景"给出结论,具体见后面的原理解释: L1正则化会产生更稀疏的解,因此基于L1正则化的学习方法相当于嵌入式的特征选择方法. L2正则化计算 ...
L1正则化与L2正则化详解
L1.L2正则化什么是正则化? L1.L2正则化公式正则化的作用为什么加入L1正则化的模型会更稀疏 1.梯度视角 2.解空间形状视角为何黄色区域为解空间? 3.函数叠加视角为何L1正则化可将 ...
L1正则化、L2正则化的多角度分析和概率角度的解释
L1正则化.L2正则化的公式如下 min ⁡ w L 1 ( w ) = min ⁡ w f ( w ) + λ n ∑ i = 1 n ∣ w i ∣ min ⁡ w L 2 ( w ) = min ...
L1正则化与L2正则化
1.1-范数,2-范数 1-范数: 2-范数:2-范数就是通常意义下的距离 2.L1和L2正则化我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度 ...
L1正则化和L2正则化的区别
文章目录前言一.L1和L2正则化是什么? 二.区别三.其他问题前言在防止过拟合的方法中有L1正则化和L2正则化,那么这两者有什么区别呢? 一.L1和L2正则化是什么? L1和L2是正则化项, ...
PyTorch实现L2和L1正则化的方法 | CSDN博文精选
作者 | pan_jinquan 来源 | CSDN博文精选目录 1.torch.optim优化器实现L2正则化 2.如何判断正则化作用了模型? 2.1未加入正则化loss和Accuracy 2.1 ...
R语言基于glmnet构建分类模型并可视化特征系数（coefficient）以及L1正则化系数（lambda）实战
R语言基于glmnet构建分类模型并可视化特征系数(coefficient)以及L1正则化系数(lambda)实战 # 导入测试数据集 data(BinomialExample) x <- Bi ...
R语言基于glmnet构建Logistic回归模型使用L1正则化并可视化系数及最佳lambda值
R语言基于glmnet构建Logistic回归模型使用L1正则化并可视化系数及最佳lambda值 Glmnet主要用于拟合广义线性模型.筛选可以使loss达到最小的正则化参数lambda.该算法非常快 ...
L1正则化为什么又叫做稀疏因子？
L1正则化对应的最经典模型为LASSO模型,LASSO的全称为:Least absolute shrinkage and selection operator sklearn中对应的模型为LASSO以 ...

Laplace（拉普拉斯）先验与L1正则化

Laplace（拉普拉斯）先验与L1正则化相关推荐

最新文章

热门文章