机器学习-白板推导系列(一)-绪论(机器学习的MLE(最大似然估计)和MAP(最大后验估计))
频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
现代机器学习的终极问题都会转化为解目标函数的优化问题,MLE和MAP是生成这个函数的很基本的思想,因此我们对二者的认知是非常重要的。这次就和大家认真聊一聊MLE和MAP这两种estimator。
1.频率学派和贝叶斯学派
1.1 抽象理解
频率学派和贝叶斯学派对世界的认知有本质不同:
频率(概率)学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围。
概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。
而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。
一句话总结: 概 率 是 已 知 模 型 和 参 数 , 推 数 据 。 统 计 是 已 知 数 据 , 推 模 型 和 参 数 。 \color{red}概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。
1.2 求解 θ \theta θ的角度
假设有一堆数据 X X X,其中 X = ( x 1 , x 2 , . . . , x n ) T X=\left ( x_{1},x_{2},...,x_{n} \right )^{T} X=(x1,x2,...,xn)T,每个 x i x_{i} xi都是一个数据样本,都是i,i,d,有一个参数 θ \theta θ,使得每个数据样本 x x x都服从概率分布 x ∼ p ( x ∣ θ ) x\sim p\left ( x|\theta \right ) x∼p(x∣θ)。
1.2.1 频率派估计(统计机器学习)
频率派认为 θ \theta θ是 未 知 常 量 \color{red}未知常量 未知常量,而 X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1,x2,...,xn)是 随 机 变 量 \color{red}随机变量 随机变量,我们需要通过数据 X X X来估计出 θ \theta θ,常用的方式是采用最大似然估计(Maximum Likelihood Estimate,MLE),也叫极大似然估计。
P ( X ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) (1.1) P\left ( X|\theta \right )=\prod_{i=1}^{n}p(x_{i}|\theta )\tag{1.1} P(X∣θ)=i=1∏np(xi∣θ)(1.1)
则:
θ ^ MLE = a r g m a x θ P ( X ∣ θ ) = a r g m a x θ ∏ i = 1 n P ( x i ∣ θ ) = a r g m a x θ ∑ i = 1 n log P ( x i ∣ θ ) = a r g m i n θ − ∑ i = 1 n log P ( x i ∣ θ ) (1.2) \begin{array}{r} \hat{\theta}_\text{MLE} &= \underset{\theta}{argmax} P(X| \theta) \\ & = \underset{\theta}{argmax} \prod_{i=1}^{n} P(x_i| \theta) \\ &= \underset{\theta}{argmax} \sum_{i=1}^{n} \log P(x_i| \theta) \\ &= \underset{\theta}{argmin} - \sum_{i=1}^{n} \log P(x_i| \theta) \end{array}\tag{1.2} θ^MLE=θargmaxP(X∣θ)=θargmax∏i=1nP(xi∣θ)=θargmax∑i=1nlogP(xi∣θ)=θargmin−∑i=1nlogP(xi∣θ)(1.2)
- 最后这一行所优化的函数被称为 N e g a t i v e L o g L i k e l i h o o d ( N L L ) \color{red}Negative\;Log\;Likelihood (NLL) NegativeLogLikelihood(NLL),这个概念和上面的推导是非常重要的!
- 给定一些数据,求对应的高斯分布时,我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式,其理论依据是优化NLL;
- 深度学习做分类任务时所用的cross entropy loss,其本质也是MLE.
我们只要求解上述等式,就可以得到最优解 θ \theta θ,一般的步骤是把上式看作损失函数,进行梯度下降等方法,最后逼近得到 θ \theta θ。这个方式就是我们采用机器学习方法来解决问题的一般流程:
- 根据问题建立算法模型
- 设定损失函数loss function
- 通过优化方法来使损失函数最小,得到最优解参数 θ \theta θ
1.2.2 贝叶斯派估计(概率图模型)
定义
贝叶斯派认为 θ \theta θ也是一个 随 机 变 量 \color{red}随机变量 随机变量,并且 θ ∼ p ( θ ) \theta\sim p\left (\theta \right ) θ∼p(θ),其中 p ( θ ) p\left (\theta \right ) p(θ)是一个 先 验 概 率 \color{red}先验概率 先验概率。我们知道贝叶斯公式如下:
P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) (1.3) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{P(X)} \tag{1.3} P(θ∣X)=P(X)P(X∣θ)⋅P(θ)(1.3)
P ( X ) = ∫ θ P ( X , θ ) d θ = ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.4) P(X)=\int_{\theta}^{}P(X,\theta )d{\theta }=\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta } \tag{1.4} P(X)=∫θP(X,θ)dθ=∫θP(X∣θ)⋅P(θ)dθ(1.4)
P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.5) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.5} P(θ∣X)=∫θP(X∣θ)⋅P(θ)dθP(X∣θ)⋅P(θ)(1.5)
其中:- P ( θ ∣ X ) P(\theta |X) P(θ∣X)为 后 验 概 率 \color{red}后验概率 后验概率,也就是我们要得到的东西,是最终的参数分布。
- P ( θ ) P(\theta ) P(θ)为 先 验 概 率 \color{red}先验概率 先验概率,指的是在没有观测到任何数据时对 θ \theta θ 的预先判断。
- P ( X ∣ θ ) P(X|\theta) P(X∣θ)为 似 然 \color{red}似然 似然,是假设 θ \theta θ已知后我们观察到的数据应该是什么样子的。
这里有两点值得注意的地方:
1. 随 着 数 据 量 的 增 加 , 参 数 分 布 会 越 来 越 向 数 据 靠 拢 , 先 验 的 影 响 力 会 越 来 越 小 ; \color{red}1. 随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小; 1.随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小;
2. 如 果 先 验 是 u n i f o r m d i s t r i b u t i o n ( 均 匀 分 布 ) , 则 贝 叶 斯 方 法 等 价 于 频 率 方 法 。 \color{red}2. 如果先验是uniform distribution(均匀分布),则贝叶斯方法等价于频率方法。 2.如果先验是uniformdistribution(均匀分布),则贝叶斯方法等价于频率方法。 因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判。最大后验估计(Maximum a Posteriori estimation,MAP)
同样的,假设数据 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn是i.i.d.的一组抽样, X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1,x2,...,xn)。那么MAP对 θ \theta θ的估计方法可以如下推导:
θ ^ MAP = a r g m a x θ P ( θ ∣ X ) = a r g m i n θ ( − log P ( θ ∣ X ) ) = a r g m i n θ ( − log P ( X ∣ θ ) − log P ( θ ) + log P ( X ) ) = a r g m i n θ ( − log P ( X ∣ θ ) − log P ( θ ) ) (1.6) \begin{array}{l}\hat{\theta}_\text{MAP} &= \underset{\theta}{argmax} P(\theta | X) \\ &= \underset{\theta}{argmin} (-\log P(\theta | X) )\\ & = \underset{\theta}{argmin}( -\log P(X|\theta) - \log P(\theta) + \log P(X)) \\ &= \underset{\theta}{argmin}( -\log P(X|\theta ) - \log P(\theta) ) \end{array}\tag{1.6} θ^MAP=θargmaxP(θ∣X)=θargmin(−logP(θ∣X))=θargmin(−logP(X∣θ)−logP(θ)+logP(X))=θargmin(−logP(X∣θ)−logP(θ))(1.6)其中:
- 第 二 行 到 第 三 行 使 用 了 贝 叶 斯 定 理 , 第 三 行 到 第 四 行 P ( X ) 可 以 丢 掉 因 为 与 θ 无 关 。 \color{red}第二行到第三行使用了贝叶斯定理,第三行到第四行P(X)可以丢掉因为与\theta无关。 第二行到第三行使用了贝叶斯定理,第三行到第四行P(X)可以丢掉因为与θ无关。
- 注 意 − log P ( X ∣ θ ) 其 实 就 是 N L L \color{red}注意-\log P(X|\theta )其实就是NLL 注意−logP(X∣θ)其实就是NLL
- M L E 和 M A P 在 优 化 时 的 不 同 就 是 在 于 先 验 项 − log P ( X ∣ θ ) 。 \color{red}MLE和MAP在优化时的不同就是在于先验项-\log P(X|\theta)。 MLE和MAP在优化时的不同就是在于先验项−logP(X∣θ)。
先验项
假定先验是一个高斯分布,即
P ( θ ) = constant × e − θ 2 2 σ 2 (1.7) P(\theta) = \text{constant} \times e^{-\frac{\theta^2}{2\sigma^2}}\tag{1.7} P(θ)=constant×e−2σ2θ2(1.7)
那么,
− log P ( θ ) = constant + θ 2 2 σ 2 (1.8) -\log P(\theta) = \text{constant} + \frac{\theta^2}{2\sigma^2}\tag{1.8} −logP(θ)=constant+2σ2θ2(1.8)
即: 在 M A P 中 使 用 一 个 高 斯 分 布 的 先 验 等 价 于 在 M L E 中 采 用 L 2 的 r e g u l a r i z a t o n ! \color{red}在MAP中使用一个高斯分布的先验等价于在MLE中采用L_2的regularizaton! 在MAP中使用一个高斯分布的先验等价于在MLE中采用L2的regularizaton!贝叶斯估计
贝叶斯估计的实质是求后验概率,关键是求下式中分母的积分:
P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.9) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.9} P(θ∣X)=∫θP(X∣θ)⋅P(θ)dθP(X∣θ)⋅P(θ)(1.9)
常用的是 蒙 特 卡 洛 方 法 \color{red}蒙特卡洛方法 蒙特卡洛方法求解积分;采样积分方法 M C M C \color{red}MCMC MCMC也有很多应用。贝叶斯预测
已知观测集有 N N N 个样本,每个样本都是 p p p 维向量。
X N × p = ( x 1 , x 2 , ⋯ , x N ) T , x i = ( x i 1 , x i 2 , ⋯ , x i p ) T (1.10) X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}\tag{1.10} XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T(1.10)
新来了一个数据 x n e w x_{new} xnew,通过 θ \theta θ作为中间参数,估计新的后验概率:
p ( x n e w ∣ X ) = ∫ θ p ( x n e w , θ ∣ X ) d θ = ∫ θ p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) d θ (1.11) \begin{array}{l}p(x_{new}|X)&=\int\limits _{\theta}p(x_{new},\theta|X)d\theta\\ &= \int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta \end{array}\tag{1.11} p(xnew∣X)=θ∫p(xnew,θ∣X)dθ=θ∫p(xnew∣θ)⋅p(θ∣X)dθ(1.11)
2. 过拟合
频率学派——最大似然估计MLE
贝叶斯学派——最大后验估计MAP
2.1 频率学派过拟合
最大似然估计有过拟合的现象,频率派的缓解方法:
- (a)通过添加正则化项;
- (b)模型集成;
注意: 过 拟 合 是 频 率 派 才 有 的 说 法 \color{red}过拟合是频率派才有的说法 过拟合是频率派才有的说法。
2.1 贝叶斯派过拟合
贝叶斯派用两种手段克服了过拟合:
- (1)引入先验,即做最大后验估计; 【与(a)等价】
- (2)计算后验分布的积分(相当于给不同模型进行加权组合) 【与(b)等价】:
MAP,解决了过拟合问题。不过却依旧求得了一个固定的参数 θ \theta θ。
2.3. MLE 和 MAP 过拟合
MLE 和 MAP 在优化时的不同就是: M A P 多 了 一 个 先 验 项 。 \color{red}MAP多了一个先验项。 MAP多了一个先验项。
下面以回归问题为例,对误差的分布做两种不同的假设,并对模型先验也做两种不同的假设,得到四种不同形式的损失函数(等价于MAP的结果,或者说等价于 正则化后MLE的结果):
正则化的本质在于认为地向模型中融入先验 ,或者说 ,认为地对 模型分布(复杂度)进行了约束。
- 在 M A P 中 使 用 一 个 “ 高 斯 分 布 的 先 验 ” 等 价 于 在 M L E 中 采 用 “ L 2 正 则 化 ” ; \color{red}在MAP中使用一个“高斯分布的先验” 等价于 在MLE中采用 “L2正则化”; 在MAP中使用一个“高斯分布的先验”等价于在MLE中采用“L2正则化”;
- 在 M A P 中 使 用 一 个 “ 拉 普 拉 斯 分 布 的 先 验 ” 等 价 于 在 M L E 中 采 用 “ L 1 正 则 化 ” ; \color{red}在MAP中使用一个“拉普拉斯分布的先验” 等价于 在MLE中采用 “ L1正则化”; 在MAP中使用一个“拉普拉斯分布的先验”等价于在MLE中采用“L1正则化”;
- 深 度 学 习 做 分 类 任 务 时 所 用 的 c r o s s e n t r o p y l o s s , 其 本 质 也 是 M L E 。 \color{red}深度学习做分类任务时所用的cross\;entropy\;loss,其本质也是MLE。 深度学习做分类任务时所用的crossentropyloss,其本质也是MLE。
参考:
- 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
- 聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计
- 频率派VS贝叶斯派
- 机器学习笔记(1)-频率派和贝叶斯派
- https://www.bilibili.com/video/BV1aE411o7qd?t=376&p=2
机器学习-白板推导系列(一)-绪论(机器学习的MLE(最大似然估计)和MAP(最大后验估计))相关推荐
- 机器学习-白板推导系列笔记(二十八)-BM
此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记 参考花书20.1 一.介绍 玻尔兹曼机连接的每个节点都是离散的二值分 ...
- 机器学习-白板推导系列笔记(十三)-MCMC
此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.蒙特卡洛方法 蒙特卡洛方法(Monte Carlo Method) ...
- 机器学习-白板推导系列笔记(二十一)-RBM
此文章主要是结合哔站shuhuai008大佬的白板推导视频:受限玻尔兹曼机_155min 全部笔记的汇总贴:机器学习-白板推导系列笔记 玻尔兹曼机介绍:白板推导系列笔记(二十八)-玻尔兹曼机 一.背景 ...
- 机器学习-白板推导系列笔记(十二)-变分推断(VI)
此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景 对于概率模型 从频率派角度来看就会是一个优化问题 从贝 ...
- 机器学习-白板推导系列(三十)-生成模型(Generative Model)
机器学习-白板推导系列(三十)-生成模型(Generative Model) 30.1 生成模型的定义 前面所详细描述的模型以浅层的机器学习为主.本章将承上启下引出后面深度机器学习的部分.本小节,主要 ...
- 机器学习-白板推导-系列(五)笔记:降维(PCA/SVD/PCoA/PPCA)
文章目录 0 笔记说明 1 背景 1.1 样本均值 1.2 样本协方差矩阵 2 主成分分析PCA 2.1 最大投影方差 2.2 最小重构距离 2.3 总结 3 SVD分解HX 4 主坐标分析PCoA ...
- 机器学习-白板推导系列笔记(三十四)-MDP
此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景介绍 Random Variable:XYX⊥YX\; ...
- 机器学习-白板推导-系列(九)笔记:概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图
文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...
- 机器学习-白板推导-系列(十)笔记:EM算法
文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM ...
最新文章
- 支付宝安全进程也“耍流氓”
- POJ 3735 Training little cats​ 题解 《挑战程序设计竞赛》
- 6月24日AppCan移动开发者大会礼品清单遭泄露
- 多线程的线程通信(生产消费)
- 如何查看cplex的help文档_word查看技巧:如何快速找到文档的修改痕迹
- 京东数据产品专家分享“如何转行数据产品经理​?”
- python版本年份_Python问题:至今的年份和年份?
- 国家网络安全事件应急预案,你需要知道哪些重点
- 小米9首次官方降价:2799元,依旧实力强劲
- 如何在npm上发布项目
- banana pro 板子
- BP神经网络简单代码分析
- 如何在matlab中读写segy格式数据
- html科学计算器,很剽悍的在线科学计算器
- Spring Security 自定义资源认证规则
- 油溶性CdSe/ZnS量子点,以CdSe为核心,ZnS为壳层,表面由疏水配体包裹的核/壳型荧光纳米材料
- 苹果发布无线充新专利,苹果Find My技术成为近几年苹果的重要创新
- 读两本敦煌书杂记-敦煌由盛转衰(二)
- vue 列表展开收起
- 力天创见客流分析功能需求