频率学派 - Frequentist - Maximum Likelihood Estimation (MLE，最大似然估计)
贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP，最大后验估计)

现代机器学习的终极问题都会转化为解目标函数的优化问题，MLE和MAP是生成这个函数的很基本的思想，因此我们对二者的认知是非常重要的。这次就和大家认真聊一聊MLE和MAP这两种estimator。

1.频率学派和贝叶斯学派

1.1 抽象理解

频率学派和贝叶斯学派对世界的认知有本质不同：

频率(概率)学派认为世界是确定的，有一个本体，这个本体的真值是不变的，我们的目标就是要找到这个真值或真值所在的范围。

概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。举个例子，我想研究怎么养猪（模型是猪），我选好了想养的品种、喂养方式、猪棚的设计等等（选择参数），我想知道我养出来的猪大概能有多肥，肉质怎么样（预测结果）。
而贝叶斯学派认为世界是不确定的，人们对世界先有一个预判，而后通过观测数据对这个预判做调整，我们的目标是要找到最优的描述这个世界的概率分布。

统计研究的问题则相反。统计是，有一堆数据，要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉，通过观察和判断，我确定这是猪肉（这就确定了模型。在实际研究中，也是通过观察数据推测模型是／像高斯分布的、指数分布的、拉普拉斯分布的等等），然后，可以进一步研究，判定这猪的品种、这是圈养猪还是跑山猪还是网易猪，等等（推测模型参数）。

一句话总结：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。 \color{red}概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

1.2 求解 θ \theta θ的角度

假设有一堆数据 X X X，其中 X = ( x 1 , x 2 , . . . , x n ) T X=\left ( x_{1},x_{2},...,x_{n} \right )^{T} X=(x1,x2,...,xn)T，每个 x i x_{i} xi都是一个数据样本，都是i,i,d，有一个参数 θ \theta θ，使得每个数据样本 x x x都服从概率分布 x ∼ p ( x ∣ θ ) x\sim p\left ( x|\theta \right ) x∼p(x∣θ)。

1.2.1 频率派估计（统计机器学习）

频率派认为 θ \theta θ是未知常量 \color{red}未知常量未知常量，而 X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1,x2,...,xn)是随机变量 \color{red}随机变量随机变量，我们需要通过数据 X X X来估计出 θ \theta θ，常用的方式是采用最大似然估计（Maximum Likelihood Estimate，MLE），也叫极大似然估计。
P ( X ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) (1.1) P\left ( X|\theta \right )=\prod_{i=1}^{n}p(x_{i}|\theta )\tag{1.1} P(X∣θ)=i=1∏np(xi∣θ)(1.1)
则：
θ ^ MLE = a r g m a x θ P ( X ∣ θ ) = a r g m a x θ ∏ i = 1 n P ( x i ∣ θ ) = a r g m a x θ ∑ i = 1 n log ⁡ P ( x i ∣ θ ) = a r g m i n θ − ∑ i = 1 n log ⁡ P ( x i ∣ θ ) (1.2) \begin{array}{r} \hat{\theta}_\text{MLE} &= \underset{\theta}{argmax} P(X| \theta) \\ & = \underset{\theta}{argmax} \prod_{i=1}^{n} P(x_i| \theta) \\ &= \underset{\theta}{argmax} \sum_{i=1}^{n} \log P(x_i| \theta) \\ &= \underset{\theta}{argmin} - \sum_{i=1}^{n} \log P(x_i| \theta) \end{array}\tag{1.2} θ^MLE=θargmaxP(X∣θ)=θargmax∏i=1nP(xi∣θ)=θargmax∑i=1nlogP(xi∣θ)=θargmin−∑i=1nlogP(xi∣θ)(1.2)

最后这一行所优化的函数被称为 N e g a t i v e L o g L i k e l i h o o d ( N L L ) \color{red}Negative\;Log\;Likelihood (NLL) NegativeLogLikelihood(NLL)，这个概念和上面的推导是非常重要的！

给定一些数据，求对应的高斯分布时，我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式，其理论依据是优化NLL;

深度学习做分类任务时所用的cross entropy loss，其本质也是MLE.

我们只要求解上述等式，就可以得到最优解 θ \theta θ，一般的步骤是把上式看作损失函数，进行梯度下降等方法，最后逼近得到 θ \theta θ。这个方式就是我们采用机器学习方法来解决问题的一般流程：

根据问题建立算法模型
设定损失函数loss function
通过优化方法来使损失函数最小，得到最优解参数 θ \theta θ

1.2.2 贝叶斯派估计（概率图模型）

定义
贝叶斯派认为 θ \theta θ也是一个随机变量 \color{red}随机变量随机变量，并且 θ ∼ p ( θ ) \theta\sim p\left (\theta \right ) θ∼p(θ)，其中 p ( θ ) p\left (\theta \right ) p(θ)是一个先验概率 \color{red}先验概率先验概率。我们知道贝叶斯公式如下：
P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) (1.3) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{P(X)} \tag{1.3} P(θ∣X)=P(X)P(X∣θ)⋅P(θ)(1.3)
P ( X ) = ∫ θ P ( X , θ ) d θ = ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.4) P(X)=\int_{\theta}^{}P(X,\theta )d{\theta }=\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta } \tag{1.4} P(X)=∫θP(X,θ)dθ=∫θP(X∣θ)⋅P(θ)dθ(1.4)
P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.5) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.5} P(θ∣X)=∫θP(X∣θ)⋅P(θ)dθP(X∣θ)⋅P(θ)(1.5)
其中：
- P ( θ ∣ X ) P(\theta |X) P(θ∣X)为后验概率 \color{red}后验概率后验概率，也就是我们要得到的东西，是最终的参数分布。
- P ( θ ) P(\theta ) P(θ)为先验概率 \color{red}先验概率先验概率，指的是在没有观测到任何数据时对 θ \theta θ 的预先判断。
- P ( X ∣ θ ) P(X|\theta) P(X∣θ)为似然 \color{red}似然似然，是假设 θ \theta θ已知后我们观察到的数据应该是什么样子的。
这里有两点值得注意的地方：
1. 随着数据量的增加，参数分布会越来越向数据靠拢，先验的影响力会越来越小 ; \color{red}1. 随着数据量的增加，参数分布会越来越向数据靠拢，先验的影响力会越来越小; 1.随着数据量的增加，参数分布会越来越向数据靠拢，先验的影响力会越来越小;
2. 如果先验是 u n i f o r m d i s t r i b u t i o n （均匀分布），则贝叶斯方法等价于频率方法。 \color{red}2. 如果先验是uniform distribution（均匀分布），则贝叶斯方法等价于频率方法。 2.如果先验是uniformdistribution（均匀分布），则贝叶斯方法等价于频率方法。因为直观上来讲，先验是uniform distribution本质上表示对事物没有任何预判。
最大后验估计（Maximum a Posteriori estimation，MAP）
同样的，假设数据 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn是i.i.d.的一组抽样， X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1,x2,...,xn)。那么MAP对 θ \theta θ的估计方法可以如下推导：
θ ^ MAP = a r g m a x θ P ( θ ∣ X ) = a r g m i n θ ( − log ⁡ P ( θ ∣ X ) ) = a r g m i n θ ( − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) + log ⁡ P ( X ) ) = a r g m i n θ ( − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) ) (1.6) \begin{array}{l}\hat{\theta}_\text{MAP} &= \underset{\theta}{argmax} P(\theta | X) \\ &= \underset{\theta}{argmin} (-\log P(\theta | X) )\\ & = \underset{\theta}{argmin}( -\log P(X|\theta) - \log P(\theta) + \log P(X)) \\ &= \underset{\theta}{argmin}( -\log P(X|\theta ) - \log P(\theta) ) \end{array}\tag{1.6} θ^MAP=θargmaxP(θ∣X)=θargmin(−logP(θ∣X))=θargmin(−logP(X∣θ)−logP(θ)+logP(X))=θargmin(−logP(X∣θ)−logP(θ))(1.6)
其中:
1. 第二行到第三行使用了贝叶斯定理，第三行到第四行 P ( X ) 可以丢掉因为与 θ 无关。 \color{red}第二行到第三行使用了贝叶斯定理，第三行到第四行P(X)可以丢掉因为与\theta无关。第二行到第三行使用了贝叶斯定理，第三行到第四行P(X)可以丢掉因为与θ无关。
2. 注意 − log ⁡ P ( X ∣ θ ) 其实就是 N L L \color{red}注意-\log P(X|\theta )其实就是NLL 注意−logP(X∣θ)其实就是NLL
3. M L E 和 M A P 在优化时的不同就是在于先验项 − log ⁡ P ( X ∣ θ ) 。 \color{red}MLE和MAP在优化时的不同就是在于先验项-\log P(X|\theta)。 MLE和MAP在优化时的不同就是在于先验项−logP(X∣θ)。
先验项
假定先验是一个高斯分布，即
P ( θ ) = constant × e − θ 2 2 σ 2 (1.7) P(\theta) = \text{constant} \times e^{-\frac{\theta^2}{2\sigma^2}}\tag{1.7} P(θ)=constant×e−2σ2θ2(1.7)
那么，
− log ⁡ P ( θ ) = constant + θ 2 2 σ 2 (1.8) -\log P(\theta) = \text{constant} + \frac{\theta^2}{2\sigma^2}\tag{1.8} −logP(θ)=constant+2σ2θ2(1.8)
即：在 M A P 中使用一个高斯分布的先验等价于在 M L E 中采用 L 2 的 r e g u l a r i z a t o n ！ \color{red}在MAP中使用一个高斯分布的先验等价于在MLE中采用L_2的regularizaton！在MAP中使用一个高斯分布的先验等价于在MLE中采用L2的regularizaton！
贝叶斯估计
贝叶斯估计的实质是求后验概率，关键是求下式中分母的积分：
P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.9) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.9} P(θ∣X)=∫θP(X∣θ)⋅P(θ)dθP(X∣θ)⋅P(θ)(1.9)
常用的是蒙特卡洛方法 \color{red}蒙特卡洛方法蒙特卡洛方法求解积分；采样积分方法 M C M C \color{red}MCMC MCMC也有很多应用。
贝叶斯预测
已知观测集有 N N N 个样本，每个样本都是 p p p 维向量。
X N × p = ( x 1 , x 2 , ⋯ , x N ) T , x i = ( x i 1 , x i 2 , ⋯ , x i p ) T (1.10) X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}\tag{1.10} XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T(1.10)
新来了一个数据 x n e w x_{new} xnew，通过 θ \theta θ作为中间参数，估计新的后验概率：
p ( x n e w ∣ X ) = ∫ θ p ( x n e w , θ ∣ X ) d θ = ∫ θ p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) d θ (1.11) \begin{array}{l}p(x_{new}|X)&=\int\limits _{\theta}p(x_{new},\theta|X)d\theta\\ &= \int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta \end{array}\tag{1.11} p(xnew∣X)=θ∫p(xnew,θ∣X)dθ=θ∫p(xnew∣θ)⋅p(θ∣X)dθ(1.11)

2. 过拟合

频率学派——最大似然估计MLE
贝叶斯学派——最大后验估计MAP

2.1 频率学派过拟合

最大似然估计有过拟合的现象，频率派的缓解方法：

（a）通过添加正则化项；
（b）模型集成；

注意：过拟合是频率派才有的说法 \color{red}过拟合是频率派才有的说法过拟合是频率派才有的说法。

2.1 贝叶斯派过拟合

贝叶斯派用两种手段克服了过拟合：

（1）引入先验，即做最大后验估计；【与（a）等价】
（2）计算后验分布的积分（相当于给不同模型进行加权组合）【与（b）等价】：
MAP，解决了过拟合问题。不过却依旧求得了一个固定的参数 θ \theta θ。

2.3. MLE 和 MAP 过拟合

MLE 和 MAP 在优化时的不同就是： M A P 多了一个先验项。 \color{red}MAP多了一个先验项。 MAP多了一个先验项。
下面以回归问题为例，对误差的分布做两种不同的假设，并对模型先验也做两种不同的假设，得到四种不同形式的损失函数（等价于MAP的结果，或者说等价于正则化后MLE的结果）：

正则化的本质在于认为地向模型中融入先验，或者说，认为地对模型分布（复杂度）进行了约束。

在 M A P 中使用一个 “ 高斯分布的先验 ” 等价于在 M L E 中采用 “ L 2 正则化 ” ； \color{red}在MAP中使用一个“高斯分布的先验” 等价于在MLE中采用 “L2正则化”；在MAP中使用一个“高斯分布的先验”等价于在MLE中采用“L2正则化”；
在 M A P 中使用一个 “ 拉普拉斯分布的先验 ” 等价于在 M L E 中采用 “ L 1 正则化 ” ； \color{red}在MAP中使用一个“拉普拉斯分布的先验” 等价于在MLE中采用 “ L1正则化”；在MAP中使用一个“拉普拉斯分布的先验”等价于在MLE中采用“L1正则化”；
深度学习做分类任务时所用的 c r o s s e n t r o p y l o s s ，其本质也是 M L E 。 \color{red}深度学习做分类任务时所用的cross\;entropy\;loss，其本质也是MLE。深度学习做分类任务时所用的crossentropyloss，其本质也是MLE。

参考：

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解
聊一聊机器学习的MLE和MAP：最大似然估计和最大后验估计
频率派VS贝叶斯派
机器学习笔记(1)-频率派和贝叶斯派
https://www.bilibili.com/video/BV1aE411o7qd?t=376&p=2

机器学习-白板推导系列(一)-绪论（机器学习的MLE(最大似然估计)和MAP(最大后验估计)）相关推荐

机器学习-白板推导系列笔记（二十八）-BM
此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记参考花书20.1 一.介绍玻尔兹曼机连接的每个节点都是离散的二值分 ...
机器学习-白板推导系列笔记（十三）-MCMC
此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.蒙特卡洛方法蒙特卡洛方法(Monte Carlo Method) ...
机器学习-白板推导系列笔记（二十一）-RBM
此文章主要是结合哔站shuhuai008大佬的白板推导视频:受限玻尔兹曼机_155min 全部笔记的汇总贴:机器学习-白板推导系列笔记玻尔兹曼机介绍:白板推导系列笔记(二十八)-玻尔兹曼机一.背景 ...
机器学习-白板推导系列笔记（十二）-变分推断（VI）
此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.背景对于概率模型从频率派角度来看就会是一个优化问题从贝 ...
机器学习-白板推导系列(三十)-生成模型(Generative Model)
机器学习-白板推导系列(三十)-生成模型(Generative Model) 30.1 生成模型的定义前面所详细描述的模型以浅层的机器学习为主.本章将承上启下引出后面深度机器学习的部分.本小节,主要 ...
机器学习-白板推导-系列（五）笔记：降维(PCA/SVD/PCoA/PPCA)
文章目录 0 笔记说明 1 背景 1.1 样本均值 1.2 样本协方差矩阵 2 主成分分析PCA 2.1 最大投影方差 2.2 最小重构距离 2.3 总结 3 SVD分解HX 4 主坐标分析PCoA ...
机器学习-白板推导系列笔记（三十四）-MDP
此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.背景介绍 Random Variable:XYX⊥YX\; ...
机器学习-白板推导-系列（九）笔记：概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图
文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...
机器学习-白板推导-系列（十）笔记：EM算法
文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM ...

机器学习-白板推导系列(一)-绪论（机器学习的MLE(最大似然估计)和MAP(最大后验估计)）