频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)

现代机器学习的终极问题都会转化为解目标函数的优化问题,MLE和MAP是生成这个函数的很基本的思想,因此我们对二者的认知是非常重要的。这次就和大家认真聊一聊MLE和MAP这两种estimator。

1.频率学派和贝叶斯学派

1.1 抽象理解

频率学派和贝叶斯学派对世界的认知有本质不同:

  • 频率(概率)学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围。

    概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

  • 而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

    统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

一句话总结: 概 率 是 已 知 模 型 和 参 数 , 推 数 据 。 统 计 是 已 知 数 据 , 推 模 型 和 参 数 。 \color{red}概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

1.2 求解 θ \theta θ的角度

​ 假设有一堆数据 X X X,其中 X = ( x 1 , x 2 , . . . , x n ) T X=\left ( x_{1},x_{2},...,x_{n} \right )^{T} X=(x1​,x2​,...,xn​)T,每个 x i x_{i} xi​都是一个数据样本,都是i,i,d,有一个参数 θ \theta θ,使得每个数据样本 x x x都服从概率分布 x ∼ p ( x ∣ θ ) x\sim p\left ( x|\theta \right ) x∼p(x∣θ)。

1.2.1 频率派估计(统计机器学习)

频率派认为 θ \theta θ是 未 知 常 量 \color{red}未知常量 未知常量,而 X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1​,x2​,...,xn​)是 随 机 变 量 \color{red}随机变量 随机变量,我们需要通过数据 X X X来估计出 θ \theta θ,常用的方式是采用最大似然估计(Maximum Likelihood Estimate,MLE),也叫极大似然估计。
P ( X ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) (1.1) P\left ( X|\theta \right )=\prod_{i=1}^{n}p(x_{i}|\theta )\tag{1.1} P(X∣θ)=i=1∏n​p(xi​∣θ)(1.1)
则:
θ ^ MLE = a r g m a x θ P ( X ∣ θ ) = a r g m a x θ ∏ i = 1 n P ( x i ∣ θ ) = a r g m a x θ ∑ i = 1 n log ⁡ P ( x i ∣ θ ) = a r g m i n θ − ∑ i = 1 n log ⁡ P ( x i ∣ θ ) (1.2) \begin{array}{r} \hat{\theta}_\text{MLE} &= \underset{\theta}{argmax} P(X| \theta) \\ & = \underset{\theta}{argmax} \prod_{i=1}^{n} P(x_i| \theta) \\ &= \underset{\theta}{argmax} \sum_{i=1}^{n} \log P(x_i| \theta) \\ &= \underset{\theta}{argmin} - \sum_{i=1}^{n} \log P(x_i| \theta) \end{array}\tag{1.2} θ^MLE​​=θargmax​P(X∣θ)=θargmax​∏i=1n​P(xi​∣θ)=θargmax​∑i=1n​logP(xi​∣θ)=θargmin​−∑i=1n​logP(xi​∣θ)​(1.2)

  1. 最后这一行所优化的函数被称为 N e g a t i v e L o g L i k e l i h o o d ( N L L ) \color{red}Negative\;Log\;Likelihood (NLL) NegativeLogLikelihood(NLL),这个概念和上面的推导是非常重要的!
  2. 给定一些数据,求对应的高斯分布时,我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式,其理论依据是优化NLL;
  3. 深度学习做分类任务时所用的cross entropy loss,其本质也是MLE.

我们只要求解上述等式,就可以得到最优解 θ \theta θ,一般的步骤是把上式看作损失函数,进行梯度下降等方法,最后逼近得到 θ \theta θ。这个方式就是我们采用机器学习方法来解决问题的一般流程:

  • 根据问题建立算法模型
  • 设定损失函数loss function
  • 通过优化方法来使损失函数最小,得到最优解参数 θ \theta θ

1.2.2 贝叶斯派估计(概率图模型)

  • 定义
    贝叶斯派认为 θ \theta θ也是一个 随 机 变 量 \color{red}随机变量 随机变量,并且 θ ∼ p ( θ ) \theta\sim p\left (\theta \right ) θ∼p(θ),其中 p ( θ ) p\left (\theta \right ) p(θ)是一个 先 验 概 率 \color{red}先验概率 先验概率。我们知道贝叶斯公式如下:
    P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) (1.3) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{P(X)} \tag{1.3} P(θ∣X)=P(X)P(X∣θ)⋅P(θ)​(1.3)
    P ( X ) = ∫ θ P ( X , θ ) d θ = ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.4) P(X)=\int_{\theta}^{}P(X,\theta )d{\theta }=\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta } \tag{1.4} P(X)=∫θ​P(X,θ)dθ=∫θ​P(X∣θ)⋅P(θ)dθ(1.4)
    P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.5) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.5} P(θ∣X)=∫θ​P(X∣θ)⋅P(θ)dθP(X∣θ)⋅P(θ)​(1.5)
    其中:

    • P ( θ ∣ X ) P(\theta |X) P(θ∣X)为 后 验 概 率 \color{red}后验概率 后验概率,也就是我们要得到的东西,是最终的参数分布。
    • P ( θ ) P(\theta ) P(θ)为 先 验 概 率 \color{red}先验概率 先验概率,指的是在没有观测到任何数据时对 θ \theta θ 的预先判断。
    • P ( X ∣ θ ) P(X|\theta) P(X∣θ)为 似 然 \color{red}似然 似然,是假设 θ \theta θ已知后我们观察到的数据应该是什么样子的。

    这里有两点值得注意的地方:
    1. 随 着 数 据 量 的 增 加 , 参 数 分 布 会 越 来 越 向 数 据 靠 拢 , 先 验 的 影 响 力 会 越 来 越 小 ; \color{red}1. 随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小; 1.随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小;
    2. 如 果 先 验 是 u n i f o r m d i s t r i b u t i o n ( 均 匀 分 布 ) , 则 贝 叶 斯 方 法 等 价 于 频 率 方 法 。 \color{red}2. 如果先验是uniform distribution(均匀分布),则贝叶斯方法等价于频率方法。 2.如果先验是uniformdistribution(均匀分布),则贝叶斯方法等价于频率方法。 因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判。

  • 最大后验估计Maximum a Posteriori estimation,MAP
    同样的,假设数据 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1​,x2​,...,xn​是i.i.d.的一组抽样, X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1​,x2​,...,xn​)。那么MAP对 θ \theta θ的估计方法可以如下推导:
    θ ^ MAP = a r g m a x θ P ( θ ∣ X ) = a r g m i n θ ( − log ⁡ P ( θ ∣ X ) ) = a r g m i n θ ( − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) + log ⁡ P ( X ) ) = a r g m i n θ ( − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) ) (1.6) \begin{array}{l}\hat{\theta}_\text{MAP} &= \underset{\theta}{argmax} P(\theta | X) \\ &= \underset{\theta}{argmin} (-\log P(\theta | X) )\\ & = \underset{\theta}{argmin}( -\log P(X|\theta) - \log P(\theta) + \log P(X)) \\ &= \underset{\theta}{argmin}( -\log P(X|\theta ) - \log P(\theta) ) \end{array}\tag{1.6} θ^MAP​​=θargmax​P(θ∣X)=θargmin​(−logP(θ∣X))=θargmin​(−logP(X∣θ)−logP(θ)+logP(X))=θargmin​(−logP(X∣θ)−logP(θ))​(1.6)

    其中:

    1. 第 二 行 到 第 三 行 使 用 了 贝 叶 斯 定 理 , 第 三 行 到 第 四 行 P ( X ) 可 以 丢 掉 因 为 与 θ 无 关 。 \color{red}第二行到第三行使用了贝叶斯定理,第三行到第四行P(X)可以丢掉因为与\theta无关。 第二行到第三行使用了贝叶斯定理,第三行到第四行P(X)可以丢掉因为与θ无关。
    2. 注 意 − log ⁡ P ( X ∣ θ ) 其 实 就 是 N L L \color{red}注意-\log P(X|\theta )其实就是NLL 注意−logP(X∣θ)其实就是NLL
    3. M L E 和 M A P 在 优 化 时 的 不 同 就 是 在 于 先 验 项 − log ⁡ P ( X ∣ θ ) 。 \color{red}MLE和MAP在优化时的不同就是在于先验项-\log P(X|\theta)。 MLE和MAP在优化时的不同就是在于先验项−logP(X∣θ)。
  • 先验项
    假定先验是一个高斯分布,即
    P ( θ ) = constant × e − θ 2 2 σ 2 (1.7) P(\theta) = \text{constant} \times e^{-\frac{\theta^2}{2\sigma^2}}\tag{1.7} P(θ)=constant×e−2σ2θ2​(1.7)
    那么,
    − log ⁡ P ( θ ) = constant + θ 2 2 σ 2 (1.8) -\log P(\theta) = \text{constant} + \frac{\theta^2}{2\sigma^2}\tag{1.8} −logP(θ)=constant+2σ2θ2​(1.8)
    即: 在 M A P 中 使 用 一 个 高 斯 分 布 的 先 验 等 价 于 在 M L E 中 采 用 L 2 的 r e g u l a r i z a t o n ! \color{red}在MAP中使用一个高斯分布的先验等价于在MLE中采用L_2的regularizaton! 在MAP中使用一个高斯分布的先验等价于在MLE中采用L2​的regularizaton!

  • 贝叶斯估计
    贝叶斯估计的实质是求后验概率,关键是求下式中分母的积分:
    P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.9) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.9} P(θ∣X)=∫θ​P(X∣θ)⋅P(θ)dθP(X∣θ)⋅P(θ)​(1.9)
    常用的是 蒙 特 卡 洛 方 法 \color{red}蒙特卡洛方法 蒙特卡洛方法求解积分;采样积分方法 M C M C \color{red}MCMC MCMC也有很多应用。

  • 贝叶斯预测
    已知观测集有 N N N 个样本,每个样本都是 p p p 维向量。
    X N × p = ( x 1 , x 2 , ⋯ , x N ) T , x i = ( x i 1 , x i 2 , ⋯ , x i p ) T (1.10) X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}\tag{1.10} XN×p​=(x1​,x2​,⋯,xN​)T,xi​=(xi1​,xi2​,⋯,xip​)T(1.10)
    新来了一个数据 x n e w x_{new} xnew​,通过 θ \theta θ作为中间参数,估计新的后验概率:
    p ( x n e w ∣ X ) = ∫ θ p ( x n e w , θ ∣ X ) d θ = ∫ θ p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) d θ (1.11) \begin{array}{l}p(x_{new}|X)&=\int\limits _{\theta}p(x_{new},\theta|X)d\theta\\ &= \int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta \end{array}\tag{1.11} p(xnew​∣X)​=θ∫​p(xnew​,θ∣X)dθ=θ∫​p(xnew​∣θ)⋅p(θ∣X)dθ​(1.11)

2. 过拟合

频率学派——最大似然估计MLE
贝叶斯学派——最大后验估计MAP

2.1 频率学派过拟合

最大似然估计有过拟合的现象,频率派的缓解方法:

  • (a)通过添加正则化项;
  • (b)模型集成;

注意: 过 拟 合 是 频 率 派 才 有 的 说 法 \color{red}过拟合是频率派才有的说法 过拟合是频率派才有的说法。

2.1 贝叶斯派过拟合

贝叶斯派用两种手段克服了过拟合:

  • (1)引入先验,即做最大后验估计; 【与(a)等价】
  • (2)计算后验分布的积分(相当于给不同模型进行加权组合) 【与(b)等价】:
    MAP,解决了过拟合问题。不过却依旧求得了一个固定的参数 θ \theta θ。

2.3. MLE 和 MAP 过拟合

MLE 和 MAP 在优化时的不同就是: M A P 多 了 一 个 先 验 项 。 \color{red}MAP多了一个先验项。 MAP多了一个先验项。
下面以回归问题为例,对误差的分布做两种不同的假设,并对模型先验也做两种不同的假设,得到四种不同形式的损失函数(等价于MAP的结果,或者说等价于 正则化后MLE的结果):

正则化的本质在于认为地向模型中融入先验 ,或者说 ,认为地对 模型分布(复杂度)进行了约束。

  • 在 M A P 中 使 用 一 个 “ 高 斯 分 布 的 先 验 ” 等 价 于 在 M L E 中 采 用 “ L 2 正 则 化 ” ; \color{red}在MAP中使用一个“高斯分布的先验” 等价于 在MLE中采用 “L2正则化”; 在MAP中使用一个“高斯分布的先验”等价于在MLE中采用“L2正则化”;
  • 在 M A P 中 使 用 一 个 “ 拉 普 拉 斯 分 布 的 先 验 ” 等 价 于 在 M L E 中 采 用 “ L 1 正 则 化 ” ; \color{red}在MAP中使用一个“拉普拉斯分布的先验” 等价于 在MLE中采用 “ L1正则化”; 在MAP中使用一个“拉普拉斯分布的先验”等价于在MLE中采用“L1正则化”;
  • 深 度 学 习 做 分 类 任 务 时 所 用 的 c r o s s e n t r o p y l o s s , 其 本 质 也 是 M L E 。 \color{red}深度学习做分类任务时所用的cross\;entropy\;loss,其本质也是MLE。 深度学习做分类任务时所用的crossentropyloss,其本质也是MLE。

参考:

  1. 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
  2. 聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计
  3. 频率派VS贝叶斯派
  4. 机器学习笔记(1)-频率派和贝叶斯派
  5. https://www.bilibili.com/video/BV1aE411o7qd?t=376&p=2

机器学习-白板推导系列(一)-绪论(机器学习的MLE(最大似然估计)和MAP(最大后验估计))相关推荐

  1. 机器学习-白板推导系列笔记(二十八)-BM

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记 参考花书20.1 一.介绍 玻尔兹曼机连接的每个节点都是离散的二值分 ...

  2. 机器学习-白板推导系列笔记(十三)-MCMC

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.蒙特卡洛方法 蒙特卡洛方法(Monte Carlo Method) ...

  3. 机器学习-白板推导系列笔记(二十一)-RBM

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:受限玻尔兹曼机_155min 全部笔记的汇总贴:机器学习-白板推导系列笔记 玻尔兹曼机介绍:白板推导系列笔记(二十八)-玻尔兹曼机 一.背景 ...

  4. 机器学习-白板推导系列笔记(十二)-变分推断(VI)

    此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景 对于概率模型 从频率派角度来看就会是一个优化问题 从贝 ...

  5. 机器学习-白板推导系列(三十)-生成模型(Generative Model)

    机器学习-白板推导系列(三十)-生成模型(Generative Model) 30.1 生成模型的定义 前面所详细描述的模型以浅层的机器学习为主.本章将承上启下引出后面深度机器学习的部分.本小节,主要 ...

  6. 机器学习-白板推导-系列(五)笔记:降维(PCA/SVD/PCoA/PPCA)

    文章目录 0 笔记说明 1 背景 1.1 样本均值 1.2 样本协方差矩阵 2 主成分分析PCA 2.1 最大投影方差 2.2 最小重构距离 2.3 总结 3 SVD分解HX 4 主坐标分析PCoA ...

  7. 机器学习-白板推导系列笔记(三十四)-MDP

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景介绍 Random Variable:XYX⊥YX\; ...

  8. 机器学习-白板推导-系列(九)笔记:概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图

    文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

  9. 机器学习-白板推导-系列(十)笔记:EM算法

    文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM ...

最新文章

  1. 支付宝安全进程也“耍流氓”
  2. POJ 3735 Training little cats​ 题解 《挑战程序设计竞赛》
  3. 6月24日AppCan移动开发者大会礼品清单遭泄露
  4. 多线程的线程通信(生产消费)
  5. 如何查看cplex的help文档_word查看技巧:如何快速找到文档的修改痕迹
  6. 京东数据产品专家分享“如何转行数据产品经理​?”
  7. python版本年份_Python问题:至今的年份和年份?
  8. 国家网络安全事件应急预案,你需要知道哪些重点
  9. 小米9首次官方降价:2799元,依旧实力强劲
  10. 如何在npm上发布项目
  11. banana pro 板子
  12. BP神经网络简单代码分析
  13. 如何在matlab中读写segy格式数据
  14. html科学计算器,很剽悍的在线科学计算器
  15. Spring Security 自定义资源认证规则
  16. 油溶性CdSe/ZnS量子点,以CdSe为核心,ZnS为壳层,表面由疏水配体包裹的核/壳型荧光纳米材料
  17. 苹果发布无线充新专利,苹果Find My技术成为近几年苹果的重要创新
  18. 读两本敦煌书杂记-敦煌由盛转衰(二)
  19. vue 列表展开收起
  20. 力天创见客流分析功能需求

热门文章

  1. 【公平锁和非公平锁有什么区别?】
  2. python三方库打包项目中_python项目生成及导入依赖的第三方库
  3. 黑苹果亮度调节 小太阳
  4. 消除switch/case语句,不破坏代码的封闭性,使程序结构更符合面向对象思想(二)
  5. CentOS 与 Ubuntu:哪个更适合做服务器
  6. 无线充电宝当无线充电器哪个品牌好?快充无线充电宝推荐
  7. 网易2018校园招聘题目
  8. 在图像间进行特征匹配
  9. G1D45-与英文编辑沟通(cover letter、催稿一类)
  10. uni-app 最简单的显示隐藏