Probability

先验概率、后验概率、似然概率

在学习朴素贝叶斯（Naive Bayes）的时候，总是会混淆先验概率、后验概率和似然概率。通过这篇博客，我将对这三个概率的定义进行详细阐释，以更好地区分它们。

1、先验概率(prior probability)

百度百科：先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现的概率。

维基百科：在贝叶斯统计中，某一不确定量p的先验概率（prior probability）分布是在考虑“观测数据”前，能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度，而不是这个不确定量的随机性。这个不确定量可以是一个参数，或者是一个隐含变量（英语：latent variable）。

我们可以发现这两个定义有一个共同点，即先验概率是不依靠观测数据的概率分布，也就是与其他因素独立的分布。在朴素贝叶斯中，类别ccc的概率就是先验概率，表示为P(c)P(c)P(c)。

2、后验概率(posterior probability)

百度百科：后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的"果"。

维基百科：在贝叶斯统计中，一个随机事件或者一个不确定事件的后验概率（posterior probability）是在考虑和给出相关证据或数据后所得到的条件概率。同样，后验概率分布是一个未知量（视为随机变量）基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

在朴素贝叶斯中，后验概率指给定数据xxx后，类别c∈Cc\in Cc∈C的概率P(c∣x)P(c|x)P(c∣x)。

先验概率与后验概率有不可分割的联系，后验概率的计算要以先验概率为基础。事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率。

3、似然概率(likelihood)

百度百科：统计学中，似然函数是一种关于统计模型参数的函数。给定输出xxx时，关于参数θ\thetaθ的似然函数 L(θ∣x)L(\theta|x)L(θ∣x)（在数值上）等于给定参数θ\thetaθ后变量XXX的概率：L(θ∣x)=P(X=x∣θ)L(\theta|x)=P(X=x|\theta)L(θ∣x)=P(X=x∣θ)。

维基百科：在数理统计学中，似然函数（英语：likelihood function）是一种关于统计模型中的参数的函数，表示模型参数中的似然性（英语：likelihood）。

似然概率其实很好理解，就是说我们现在有一堆数据，现在需要构建一组参数对这些数据建模，以使得模型能够尽可能地拟合这些数据。所以我们要做的就是从很多组参数中选出一组使得模型对数据的拟合程度最高，所以也常常说最大似然概率。

注意“似然”与“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然”和“概率”又有明确的区分：

“概率”描述了给定模型参数后，描述结果的合理性，而不涉及任何观察到的数据
“似然”描述了给定了特定观测值后，描述模型参数是否合理

举个栗子，抛一枚均匀的硬币，拋20次，问15次拋得正面的可能性有多大？这里的可能性就是“概率”；而拋一枚硬币，拋20次，结果15次正面向上，问其为均匀的可能性？这里的可能性就是“似然”。

4、先验、后验概率与似然之间的关系

先验概率：P(c)P(c)P(c)
后验概率：P(c∣x)P(c|x)P(c∣x)
似然：P(X=x∣θ=c)P(X=x|\theta =c)P(X=x∣θ=c)

存在的关系

P(θ∣X)=P(X∣θ)P(θ)P(X)\begin{aligned} P(\theta \mid X)=\frac{P(X \mid \theta)P(\theta)}{P(X)} \end{aligned} P(θ∣X)=P(X)P(X∣θ)P(θ)

一般而言数据X的分布是已知的，因此

P(θ∣X)∝P(X∣θ)P(θ)\begin{aligned} P(\theta \mid X)\propto P(X \mid \theta)P(\theta) \end{aligned} P(θ∣X)∝P(X∣θ)P(θ)

此外，当参数θ\thetaθ是均匀分布时，后验概率与似然概率成正比，即

P(θ∣X)∝P(X∣θ)\begin{aligned} P(\theta \mid X)\propto P(X \mid \theta) \end{aligned} P(θ∣X)∝P(X∣θ)

5、EM算法

import numpy as np### EM算法过程函数定义
def em(data, thetas, max_iter=30, eps=1e-3):'''输入：data：观测数据thetas：初始化的估计参数值max_iter：最大迭代次数eps：收敛阈值输出：thetas：估计参数'''# 初始化似然函数值ll_old = -np.inftyfor i in range(max_iter):### E步：求隐变量分布# 对数似然 [coin_num, exp_num], [2, 5]log_like = np.array([np.sum(data * np.log(theta), axis=1) for theta in thetas])# 似然 [coin_num, exp_num], [2, 5]like = np.exp(log_like)# 求隐变量分布 [coin_num, exp_num], [2, 5]  Q_iws = like/like.sum(0)# 概率加权 [2, 5, 2]vs = np.array([w[:, None] * data for w in ws])### M步：更新参数值 [2, 2]  [[A_+,A_-],[B_+,B_-]]thetas = np.array([v.sum(0)/v.sum() for v in vs])# 更新似然函数ll_new = np.sum([w*l for w, l in zip(ws, log_like)])  # 计算似然函数 \hat(theta):=\arg,\max_{\theta}\sum_{i=1}^m\sum_{z^{(i)}Q_i(z^{(i)})\log{P(x_i,z^{(i)}|\theta)}}print("Iteration: %d" % (i+1))print("theta_B = %.2f, theta_C = %.2f, ll = %.2f"% (thetas[0,0], thetas[1, 0], ll_new))# 满足迭代条件即退出迭代if np.abs(ll_new - ll_old) < eps:breakll_old = ll_newreturn thetasif __name__ == "__main__":# 观测数据，5次独立试验，每次试验10次抛掷的正反次数# 比如第一次试验为5次正面5次反面observed_data = np.array([(5,5), (9,1), (8,2), (4,6), (7,3)])# 初始化参数值，即硬币B的正面概率为0.6，硬币C的正面概率为0.5thetas = np.array([[0.6, 0.4], [0.5, 0.5]])# thetas = em(observed_data, thetas, max_iter=30, eps=1e-3)thetas = em(observed_data, thetas, max_iter=30, eps=1e-4)print(thetas)

EM算法详解+通俗例子理解_呆呆象呆呆的博客-CSDN博客_em算法实例

https://zhuanlan.zhihu.com/p/36331115

6、ELBO

1、问题定义

给定一个observation variable xxx(比如RGB图片)和latent variable zzz(比如是RGB图片经过encoder得到的latent feature)，假设我们想学习后验概率p(z∣x)p(z|x)p(z∣x)，但发现p(z∣x)p(z|x)p(z∣x)在实际中不易或不能求解，那么该如何求解这个后验概率？

2、High-level Introduction of VI Solution

后验概率直接求解不可行
马尔科夫蒙特卡洛求解精确但是计算慢
以优化的方式用q∗q^*q∗近似p(z∣x)p(z|x)p(z∣x):首先在参数z上具体化一个较好的分布集合QQQ，之后从QQQ中找到一个好的q∗(z)q^*(z)q∗(z)近似p(z∣x)p(z|x)p(z∣x)。q∗(z)=arg⁡min⁡q(z)∈QL(q(z),p(z∣x))q^*(z)=\underset{q(z) \in Q}{\arg \min } L(q(z), p(z \mid x))q∗(z)=q(z)∈QargminL(q(z),p(z∣x))
Variational Bayes(VB),L是KL散度:L(q(z),p(z∣x))=KL(q(z)∥p(z∣x))L(q(z), p(z \mid x))=\mathrm{KL}(q(z) \| p(z|x))L(q(z),p(z∣x))=KL(q(z)∥p(z∣x))

QQQ是整个概率分布空间中的一个概率分布family，VI要做的就是找到QQQ中的一个最优的替代概率分布q∗(z)q^*(z)q∗(z)(此分布比后验分布好求解)，其是整个QQQ中离p(z∣x)p(z|x)p(z∣x)最近的分布。假设L是此空间上的距离函数，则我们要找的这个概率分布就可以表示为：

q∗(z)=arg⁡min⁡q(z)∈QL(q(z),p(z∣x))q^*(z)=\underset{q(z) \in Q}{\arg \min } L(q(z), p(z \mid x))q∗(z)=q(z)∈QargminL(q(z),p(z∣x))

如果我们能找到这样的分布q∗(z)q^*(z)q∗(z)，那么我们就可以用q∗(z)q^*(z)q∗(z)来估计原来不易直接计算的p(z∣x)p(z|x)p(z∣x)。

3、ELBO

当我们取L为KL divergence（经常用于度量两个概率分布之间的距离）的时候，此问题变成Variational Bayes (VB) 问题。（划重点，我们的目标变成了最小化以下KL散度。）

L(q(z),p(z∣x))=KL(q(z)∥p(z∣x))q∗(z)=arg⁡min⁡KL(q(z)∥p(z∣x))q(z)∈Q\begin{aligned} &L(q(\boldsymbol{z}), p(\boldsymbol{z} \mid \boldsymbol{x}))=\mathrm{KL}(q(\boldsymbol{z}) \| p(\boldsymbol{z} \mid \boldsymbol{x}))\\ &q^*(\boldsymbol{z})=\underset{q(\boldsymbol{z}) \in Q}{\arg \min \mathrm{KL}(q(\boldsymbol{z}) \| p(\boldsymbol{z} \mid \boldsymbol{x}))} \end{aligned} L(q(z),p(z∣x))=KL(q(z)∥p(z∣x))q∗(z)=q(z)∈QargminKL(q(z)∥p(z∣x))

展开KL项，

q∗(z)=arg⁡min⁡q(z)∈QKL(q(z)∥p(z∣x))=arg⁡min⁡q(z)∈Q−∫zq(z)log⁡[p(z∣x)q(z)]dz]\begin{aligned} q^*(\boldsymbol{z}) &=\underset{q(\boldsymbol{z}) \in Q}{\arg \min } \mathrm{KL}(q(\boldsymbol{z}) \| p(\boldsymbol{z} \mid \boldsymbol{x})) \\ &\left.=\underset{q(\boldsymbol{z}) \in Q}{\arg \min }-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log \left[\frac{p(\boldsymbol{z} \mid \boldsymbol{x})}{q(\boldsymbol{z})}\right] d \boldsymbol{z}\right] \end{aligned} q∗(z)=q(z)∈QargminKL(q(z)∥p(z∣x))=q(z)∈Qargmin−∫zq(z)log[q(z)p(z∣x)]dz]

（题外话，KL散度数值上是always大于等于0的，那么在没有其他约束的条件下，q∗(z)=p(z∣x)q^*(z)=p(z \mid x)q∗(z)=p(z∣x)。）

但是再这个优化目标中计算q∗(z)q^*(z)q∗(z)又需要用到p(z∣x)p(z \mid x)p(z∣x)，因此需要将KL想进行变化。

KL(q(z)∥p(z∣x))=−∫zq(z)log⁡[p(z∣x)q(z)]dz=∫zq(z)log⁡q(z)dz−∫zq(z)log⁡p(z∣x)dz\begin{aligned} &\mathrm{KL}(q(\boldsymbol{z}) \| p(\boldsymbol{z} \mid \boldsymbol{x})) =-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log \left[\frac{p(\boldsymbol{z} \mid \boldsymbol{x})} {q(\boldsymbol{z})}\right] d \boldsymbol{z}\\ &=\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) d \boldsymbol{z}- \int_{\boldsymbol{z}} q(\boldsymbol{z}) \log p (\boldsymbol{z}\mid \boldsymbol{x}) d \boldsymbol{z} \end{aligned}KL(q(z)∥p(z∣x))=−∫zq(z)log[q(z)p(z∣x)]dz=∫zq(z)logq(z)dz−∫zq(z)logp(z∣x)dz

这里关于q(z)q(z)q(z)对zzz的积分，其实就是关于q(z)q(z)q(z)的期望，即∫zq(z)f(z,⋅)dz=Eq[f(z,⋅)]\int_z q(z)f(z,\cdot)d z=\mathbb E_q[f(z,\cdot)]∫zq(z)f(z,⋅)dz=Eq[f(z,⋅)]，那么上式能表示成期望形式：

KL(q(z)∥p(z∣z))=−∫zq(z)log⁡[p(z∣x)q(z)]dz=∫zq(z)log⁡q(z)dz−∫zq(z)log⁡p(z∣x)dz=Eq[log⁡q(z)]−Eq[log⁡p(z∣x)]\begin{aligned} \mathrm{KL}(q(\boldsymbol{z}) \| p(z \mid \boldsymbol{z})) &=-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log \left[\frac{p(\boldsymbol{z} \mid \boldsymbol{x})}{q(\boldsymbol{z})}\right] d \boldsymbol{z} \\ &=\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) d \boldsymbol{z}-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log p(\boldsymbol{z} \mid \boldsymbol{x}) d \boldsymbol{z} \\ &=\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q[\log p(\boldsymbol{z} \mid \boldsymbol{x})] \end{aligned} KL(q(z)∥p(z∣z))=−∫zq(z)log[q(z)p(z∣x)]dz=∫zq(z)logq(z)dz−∫zq(z)logp(z∣x)dz=Eq[logq(z)]−Eq[logp(z∣x)]

第二项可以用条件概率公式继续展开：

KL(q(z)∥p(z∣x))=−∫zq(z)log⁡[p(z∣x)q(z)]dz=∫zq(z)log⁡q(z)dz−∫zq(z)log⁡p(z∣x)dz=Eq[log⁡q(z)]−Eq[log⁡p(z∣x)]=Eq[log⁡q(z)]−Eq[log⁡[p(x,z)p(x)]]=Eq[log⁡q(z)]−Eq[log⁡p(x,z)]+Eq[log⁡p(x)]\begin{aligned} \mathrm{KL}(q(\boldsymbol{z}) \| p(\boldsymbol{z} \mid \boldsymbol{x})) &=-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log \left[\frac{p(\boldsymbol{z} \mid \boldsymbol{x})}{q(\boldsymbol{z})}\right] d \boldsymbol{z} \\ &=\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) d \boldsymbol{z}-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log p(\boldsymbol{z} \mid \boldsymbol{x}) d \boldsymbol{z} \\ &=\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q[\log p(\boldsymbol{z} \mid \boldsymbol{x})] \\ &=\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q\left[\log \left[\frac{p(\boldsymbol{x}, \boldsymbol{z})}{p(\boldsymbol{x})}\right]\right] \\ &=\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q[\log p(\boldsymbol{x}, \boldsymbol{z})]+\mathbb{E}_q[\log p(\boldsymbol{x})] \end{aligned} KL(q(z)∥p(z∣x))=−∫zq(z)log[q(z)p(z∣x)]dz=∫zq(z)logq(z)dz−∫zq(z)logp(z∣x)dz=Eq[logq(z)]−Eq[logp(z∣x)]=Eq[logq(z)]−Eq[log[p(x)p(x,z)]]=Eq[logq(z)]−Eq[logp(x,z)]+Eq[logp(x)]

此时，变成了三项，观察各项，发现第三项里面log⁡p(x)\log{p(x)}logp(x)与期望的对象q(z)q(z)q(z)是无关的，所以期望符号可以直接去掉，于是得到：

KL(q(z)∥p(z∣x))=−∫zq(z)log⁡[p(z∣x)q(z)]dz=∫zq(z)log⁡q(z)dz−∫zq(z)log⁡p(z∣x)dz=Eq[log⁡q(z)]−Eq[log⁡p(z∣x)]=Eq[log⁡q(z)]−Eq[log⁡[p(x,z)p(x)]]=Eq[log⁡q(z)]−Eq[log⁡p(x,z)]+Eq[log⁡p(x)]=Eq[log⁡q(z)]−Eq[log⁡p(x,z)]⏟−ELBO+log⁡p(x)\begin{aligned} &\mathrm{KL}(q(\boldsymbol{z}) \| p(\boldsymbol{z} \mid \boldsymbol{x}))=-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log \left[\frac{p(\boldsymbol{z} \mid \boldsymbol{x})}{q(\boldsymbol{z})}\right] d \boldsymbol{z}\\ &=\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) d \boldsymbol{z}-\int_{\boldsymbol{z}} q(\boldsymbol{z}) \log p(\boldsymbol{z} \mid \boldsymbol{x}) d \boldsymbol{z}\\ &=\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q[\log p(\boldsymbol{z} \mid \boldsymbol{x})]\\ &=\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q\left[\log \left[\frac{p(\boldsymbol{x}, \boldsymbol{z})}{p(\boldsymbol{x})}\right]\right]\\ &=\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q[\log p(\boldsymbol{x}, \boldsymbol{z})]+\mathbb{E}_q[\log p(\boldsymbol{x})]\\ &=\underbrace{\mathbb{E}_q[\log q(\boldsymbol{z})]-\mathbb{E}_q[\log p(\boldsymbol{x}, \boldsymbol{z})]}_{-\mathrm{ELBO}}+\log p(\boldsymbol{x}) \end{aligned} KL(q(z)∥p(z∣x))=−∫zq(z)log[q(z)p(z∣x)]dz=∫zq(z)logq(z)dz−∫zq(z)logp(z∣x)dz=Eq[logq(z)]−Eq[logp(z∣x)]=Eq[logq(z)]−Eq[log[p(x)p(x,z)]]=Eq[logq(z)]−Eq[logp(x,z)]+Eq[logp(x)]=−ELBOEq[logq(z)]−Eq[logp(x,z)]+logp(x)

此时，我们把前两项称之为-ELBO (Evidence Lower Bound)。（注意这里是负的ELBO）

那么关于q(z)q(z)q(z)的ELBO(q)ELBO(q)ELBO(q)为：

ELBO(q)=Eq[log⁡p(x,z)]−Eq[log⁡q(z)]ELBO(q)=\mathbb{E}_q[\log p(\boldsymbol{x}, \boldsymbol{z})]-\mathbb{E}_q[\log q(\boldsymbol{z})]ELBO(q)=Eq[logp(x,z)]−Eq[logq(z)]

实际计算中，ELBO可以表示成以下形式进行计算：

ELBO⁡(q)=Eq[log⁡p(x,z)]−Eq[log⁡q(z)]=Eq[log⁡p(x∣z)p(z)]−Eq[log⁡q(z)]=Eq[log⁡p(x∣z)]+Eq[log⁡p(z)]−Eq[log⁡q(z)]=Eq[log⁡p(x∣z)]+Eq[log⁡p(z)log⁡q(z)]=Eq[log⁡p(x∣z)]+∫zq(z)log⁡p(z)log⁡q(z)dz=Eq[log⁡p(x∣z)]−KL(q(z)∥p(z))\begin{aligned} \operatorname{ELBO}(q) &=\mathbb{E}_q[\log p(x, z)]-\mathbb{E}_q[\log q(z)] \\ &=\mathbb{E}_q[\log p(x \mid z) p(z)]-\mathbb{E}_q[\log q(z)] \\ &=\mathbb{E}_q[\log p(x \mid z)]+\mathbb{E}_q[\log p(z)]-\mathbb{E}_q[\log q(z)] \\ &=\mathbb{E}_q[\log p(x \mid z)]+\mathbb{E}_q\left[\frac{\log p(z)}{\log q(z)}\right] \\ &=\mathbb{E}_q[\log p(x \mid z)]+\int_z q(z) \frac{\log p(z)}{\log q(z)} d z \\ &=\mathbb{E}_q[\log p(x \mid z)]-K L(q(z) \| p(z)) \end{aligned} ELBO(q)=Eq[logp(x,z)]−Eq[logq(z)]=Eq[logp(x∣z)p(z)]−Eq[logq(z)]=Eq[logp(x∣z)]+Eq[logp(z)]−Eq[logq(z)]=Eq[logp(x∣z)]+Eq[logq(z)logp(z)]=Eq[logp(x∣z)]+∫zq(z)logq(z)logp(z)dz=Eq[logp(x∣z)]−KL(q(z)∥p(z))

我们再观察log⁡p(x)\log{p(x)}logp(x)(其为常数，因为是关于数据集本身的统计信息，我们称之为Evidence)

log⁡p(x)=ELBO(q)+KL(q(z)∣p(z∣x))\log{p(x)}=\mathrm{ELBO}(q)+\mathrm{KL}(q(\boldsymbol{z}) | p(\boldsymbol{z} \mid \boldsymbol{x}))logp(x)=ELBO(q)+KL(q(z)∣p(z∣x))

因为等式左边是常数，我们的目标又是最小化KL项，那么我们要做的其实就是最大化ELBO(q)\mathrm{ELBO}(q)ELBO(q) ，即：

q∗(z)=argmin⁡KL(q(z)∥p(z∣x)⏞unknown )q(z)∈Q=argmax⁡q(z)∈QELBO⁡(q)\begin{aligned} &q^*(\boldsymbol{z})=\underset{q(\boldsymbol{z}) \in Q}{\operatorname{argmin} \mathrm{KL}(q(\boldsymbol{z}) \| \overbrace{p(\boldsymbol{z} \mid \boldsymbol{x})}^{\text {unknown }})}\\ &=\underset{q(z) \in Q}{\operatorname{argmax}} \operatorname{ELBO}(q) \end{aligned} q∗(z)=q(z)∈QargminKL(q(z)∥p(z∣x)unknown )=q(z)∈QargmaxELBO(q)

到此，我们可以总结说：想要找到q∗(z)q^*(\boldsymbol{z})q∗(z)只要最大化q(z)q(\boldsymbol{z})q(z)的ELBO就可以了。

至于为什么叫Evidence Lower Bound,，因为KL散度always大于等于0，所以有以下不等式

log⁡p(x)=ELBO(q)+KL(q(z)∣p(z∣x))≥ELBO(q)\begin{aligned} \log{p(x)} &=\mathrm{ELBO}(q)+\mathrm{KL}(q(\boldsymbol{z}) | p(\boldsymbol{z} \mid \boldsymbol{x})) \\ &\ge\mathrm{ELBO}(q) \end{aligned} logp(x)=ELBO(q)+KL(q(z)∣p(z∣x))≥ELBO(q)

ELBO其实就是数据Evidencelog⁡p(x)\log{p(x)}logp(x)的下界。

7、多变量条件概率公式(多变量贝叶斯公式)

P(A∣B,C)=P(A,B,C)P(B,C)P(A|B,C)=\frac{P(A,B,C)}{P(B,C)}P(A∣B,C)=P(B,C)P(A,B,C)

P(A,B,C)=P(C,A,B)=P(C∣A,B)∗P(A,B)=P(C∣A,B)∗P(B,A)=P(C∣A,B)∗P(B∣A)∗P(A)P(A,B,C)=P(C,A,B)=P(C|A,B)*P(A,B)\\=P(C|A,B)*P(B,A)\\=P(C|A,B)*P(B|A)*P(A)P(A,B,C)=P(C,A,B)=P(C∣A,B)∗P(A,B)=P(C∣A,B)∗P(B,A)=P(C∣A,B)∗P(B∣A)∗P(A)

P(A∣B,C)=P(B∣A)∗P(A)∗P(C∣A,B)P(B)∗P(C∣B)P(A|B,C)=\frac{P(B|A)*P(A)*P(C|A,B)}{P(B)*P(C|B)}P(A∣B,C)=P(B)∗P(C∣B)P(B∣A)∗P(A)∗P(C∣A,B)

先验、后验概率，似然，EM算法，ELBO(Evidence Lower Bound)，多变量条件概率公式(多变量贝叶斯公式)相关推荐

机器学习笔记之EM算法(二)EM算法公式推导过程
机器学习笔记之EM算法--EM算法公式推导过程引言回顾:EM算法公式推导过程引言上一节介绍了隐变量和EM算法,以及以EM算法公式为条件,证明了随着EM算法迭代步骤的增加,每次迭代得到新的模 ...
第八课.EM算法的合理性与算法推导
目录 EM算法背景 EM算法迭代的合理性 EM算法推导 EM算法的E步和M步分析EM算法的由来 EM算法背景在硬币投掷和班级身高问题中,引入了隐变量问题,模型变成了混合模型,我们不能直接利用极大似 ...
机器学习：详细推导EM算法
EM算法可以说是一个非常经典的算法,至今仍在广泛地被使用(如强化学习领域等等). 网上介绍该算法的文章也很多,比如如何通俗理解EM算法.[机器学习基础]EM算法.但是我认为这些文章讲的太多,反而显得乱 ...
机器学习-白板推导-系列（十）笔记：EM算法
文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM ...
一文让你完全入门EM算法
EM(Expectation Maximum,期望最大化)是一种迭代算法,用于对含有隐变量概率参数模型的极大似然估计或极大后验估计.模型参数的每一次迭代,含有隐变量概率参数模型的似然函数都会增加,当似 ...
从EM算法到变分推断（变分贝叶斯推断）
在含有隐变量 Z Z Z的图模型中,在用EM迭代求解时,需要计算一个后验分布: p ( Z ∣ Y , θ o l d ) p(Z|Y,\theta_{old}) p(Z∣Y,θold),如果Z是离 ...
从最大似然到EM算法浅解 http://blog.csdn.net/zouxy09/article/details/8537620
1. EM blog的举例就是group 然后就是每个group的function很有效地串联所学的知识,看到的论文,所有的思考,都是有一定的逻辑关系,如何逐渐develop你的想法,都是有一定的源头 ...
(转载)机器学习知识点(十五)从最大似然到EM算法浅解
从最大似然到EM算法浅解机器学习十大算法之一:EM算法.能评得上十大之一,让人听起来觉得挺NB的.什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题.神为什么是神,因为神能做 ...
EM从最大似然到EM算法浅解
从最大似然到EM算法浅解 zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习十大算法之一:EM算法.能评得上十大之一,让人听起来觉得挺NB的.什么是NB啊 ...

先验、后验概率，似然，EM算法，ELBO(Evidence Lower Bound)，多变量条件概率公式(多变量贝叶斯公式)