机器学习笔记之EM算法——EM算法公式推导过程

  • 引言
    • 回顾:EM算法公式
    • 推导过程

引言

上一节介绍了隐变量和EM算法,以及 以EM算法公式为条件,证明了随着EM算法迭代步骤的增加,每次迭代得到新的模型参数θ(t+1)\theta^{(t+1)}θ(t+1)总是优于之前迭代结果θt,θt−1,⋯\theta^{t},\theta^{t-1},\cdotsθt,θt−1,⋯。最终 至少达到局部最优。本节将介绍EM算法公式的推导过程

回顾:EM算法公式

EM算法本质上是 求解包含隐变量Z\mathcal ZZ的概率模型P(X∣θ)P(\mathcal X \mid \theta)P(X∣θ)的最优参数。

隐变量是人为定义的一种变量——其原因是仅观察样本集合,很难观测到概率模型P(X∣θ)P(\mathcal X \mid\theta)P(X∣θ)的分布规律。通过定义隐变量来协助求解概率模型

EM算法的底层逻辑依然是极大似然估计
隐变量是协助求解概率模型所定义的一种手段,它并不真实存在。因此只是在求解过程中‘引入隐变量’而不是像arg⁡max⁡θlog⁡P(X,Z∣θ)\mathop{\arg\max}\limits_{\theta} \log P(\mathcal X,\mathcal Z \mid \theta)θargmax​logP(X,Z∣θ)直接写在概率模型中。
θ^=arg⁡max⁡θlog⁡P(X∣θ)\hat \theta = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta)θ^=θargmax​logP(X∣θ)
X\mathcal XX称作观测数据(Observed Data),它是基于真正的样本集合得到的真实信息
Z\mathcal ZZ称作非观测数据(隐变量(Latent Variable)),它可看作隐藏在样本集合内的规律信息
(X,Z)(\mathcal X,\mathcal Z)(X,Z)称作完整数据(Complete Data);
θ\thetaθ是概率模型P(X∣θ)P(\mathcal X \mid \theta)P(X∣θ)的模型参数(Parameter);

EM算法公式表示如下:
θ(t+1)=arg⁡max⁡θ∫Zlog⁡P(X,Z∣θ)P(Z∣X,θ(t))dZ\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta}\int_{\mathcal Z } \log P(\mathcal X,\mathcal Z\mid \theta) P(\mathcal Z \mid \mathcal X ,\theta^{(t)})d\mathcal Zθ(t+1)=θargmax​∫Z​logP(X,Z∣θ)P(Z∣X,θ(t))dZ

上述公式本质上是一个迭代过程,每一次迭代均分为两个步骤,并且在迭代过程中两个步骤交替执行

  • E步(Expectation-step):将∫Zlog⁡P(X,Z∣θ)P(Z∣X,θ(t))dZ\int_{\mathcal Z } \log P(\mathcal X,\mathcal Z\mid \theta) P(\mathcal Z \mid \mathcal X ,\theta^{(t)})d\mathcal Z∫Z​logP(X,Z∣θ)P(Z∣X,θ(t))dZ视作log⁡P(X,Z∣θ)\log P(\mathcal X,\mathcal Z\mid \theta)logP(X,Z∣θ)在概率分布P(Z∣X,θ(t))P(\mathcal Z \mid \mathcal X ,\theta^{(t)})P(Z∣X,θ(t))下的期望结果。即:
    EZ∣X,θ(t)[log⁡P(X,Z∣θ)]\mathbb E_{\mathcal Z \mid \mathcal X,\theta^{(t)}} [\log P(\mathcal X,\mathcal Z \mid \theta)]EZ∣X,θ(t)​[logP(X,Z∣θ)]
  • M步(Maximization step):选择合适的模型参数θ(t+1)\theta^{(t+1)}θ(t+1),使得 E步的期望结果最大
    θ(t+1)=arg⁡max⁡θ{EZ∣X,θ(t)[log⁡P(X,Z∣θ)]}\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \left\{\mathbb E_{\mathcal Z \mid \mathcal X,\theta^{(t)}} [\log P(\mathcal X,\mathcal Z \mid \theta)]\right\}θ(t+1)=θargmax​{EZ∣X,θ(t)​[logP(X,Z∣θ)]}

并且以 EM算法公式为条件,从 极大似然估计角度 验证了对于模型参数θ(t+1)\theta^{(t+1)}θ(t+1)的似然结果确实优于模型参数θ(t)\theta^{(t)}θ(t)的似然结果。即EM公式的合法性
log⁡P(X∣θ(t+1))≥log⁡P(X∣θ(t))\log P(\mathcal X \mid \theta^{(t+1)}) \geq \log P(\mathcal X \mid \theta^{(t)})logP(X∣θ(t+1))≥logP(X∣θ(t))

本节将介绍EM算法公式的推导过程。

推导过程

依然从极大似然估计的角度出发,引入隐变量Z\mathcal ZZ,将概率模型的 log⁡\loglog似然表示如下:
log⁡P(X∣θ)=log⁡P(X,Z∣θ)P(Z∣X,θ)=log⁡P(X,Z∣θ)−log⁡P(Z∣X,θ)\log P(\mathcal X \mid \theta) = \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{P(\mathcal Z \mid \mathcal X,\theta)} = \log P(\mathcal X,\mathcal Z \mid \theta) - \log P(\mathcal Z \mid \mathcal X,\theta)logP(X∣θ)=logP(Z∣X,θ)P(X,Z∣θ)​=logP(X,Z∣θ)−logP(Z∣X,θ)

这里出现一个技巧性操作:引入一个关于隐变量Z\mathcal ZZ概率分布的log⁡\loglog结果:log⁡Q(Z)\log \mathcal Q(\mathcal Z)logQ(Z)。则有:
log⁡P(X∣θ)=log⁡P(X,Z∣θ)−log⁡Q(Z)−[log⁡P(Z∣X,θ)−log⁡Q(Z)]=log⁡P(X,Z∣θ)Q(Z)−log⁡P(Z∣X,θ)Q(Z)\begin{aligned} \log P(\mathcal X \mid \theta) & = \log P(\mathcal X,\mathcal Z \mid \theta) - \log \mathcal Q(\mathcal Z) - \left[\log P(\mathcal Z \mid \mathcal X,\theta) - \log \mathcal Q(\mathcal Z)\right] \\ & = \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} - \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)} \end{aligned}logP(X∣θ)​=logP(X,Z∣θ)−logQ(Z)−[logP(Z∣X,θ)−logQ(Z)]=logQ(Z)P(X,Z∣θ)​−logQ(Z)P(Z∣X,θ)​​
将等式两边分别基于Q(Z)\mathcal Q(\mathcal Z)Q(Z)分布求解期望

  • 基于Q(Z)\mathcal Q(\mathcal Z)Q(Z)分布对log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)求解期望:
    ∫ZQ(Z)⋅log⁡P(X∣θ)dZ\int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log P(\mathcal X \mid \theta) d\mathcal Z∫Z​Q(Z)⋅logP(X∣θ)dZ
    由于log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)不含变量Z\mathcal ZZ,视为常数;上式可转化为:
    log⁡P(X∣θ)∫ZQ(Z)dZ\log P(\mathcal X \mid \theta) \int_{\mathcal Z} \mathcal Q(\mathcal Z) d\mathcal ZlogP(X∣θ)∫Z​Q(Z)dZ
    由于概率密度积分∫ZQ(Z)dZ=1\int_{\mathcal Z}\mathcal Q(\mathcal Z) d\mathcal Z = 1∫Z​Q(Z)dZ=1,因此,Q(Z)\mathcal Q(\mathcal Z)Q(Z)对log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)的期望结果为 log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)自身:
    log⁡P(X∣θ)∫ZQ(Z)dZ=log⁡P(X∣θ)⋅1=log⁡P(X∣θ)\log P(\mathcal X \mid \theta) \int_{\mathcal Z} \mathcal Q(\mathcal Z) d\mathcal Z = \log P(\mathcal X \mid \theta) \cdot 1 = \log P(\mathcal X \mid \theta)logP(X∣θ)∫Z​Q(Z)dZ=logP(X∣θ)⋅1=logP(X∣θ)

  • 基于Q(Z)\mathcal Q(\mathcal Z)Q(Z)分布对log⁡P(X,Z∣θ)Q(Z)−log⁡P(Z∣X,θ)Q(Z)\log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} - \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)}logQ(Z)P(X,Z∣θ)​−logQ(Z)P(Z∣X,θ)​求解期望
    ∫ZQ(Z)[log⁡P(X,Z∣θ)Q(Z)−log⁡P(Z∣X,θ)Q(Z)]dZ\int_{\mathcal Z} \mathcal Q(\mathcal Z) \left[\log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} - \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)}\right] d\mathcal Z∫Z​Q(Z)[logQ(Z)P(X,Z∣θ)​−logQ(Z)P(Z∣X,θ)​]dZ
    将上述式子展开,分为两个部分
    ∫ZQ(Z)log⁡P(X,Z∣θ)Q(Z)dZ+[−∫ZQ(Z)log⁡P(Z∣X,θ)Q(Z)dZ]\int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} d\mathcal Z + \left[- \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)} d\mathcal Z\right]∫Z​Q(Z)logQ(Z)P(X,Z∣θ)​dZ+[−∫Z​Q(Z)logQ(Z)P(Z∣X,θ)​dZ]
    观察该式的第二项:它就是 Q(Z)\mathcal Q(\mathcal Z)Q(Z)和P(Z∣X,θ)P(\mathcal Z \mid \mathcal X,\theta)P(Z∣X,θ)两种概率分布的相对熵,也称KL\mathcal K\mathcal LKL散度(Kullback-Leibler Divergence)。
    从实际意义的角度,它描述的是Q(Z)\mathcal Q(\mathcal Z)Q(Z)P(Z∣X,θ)P(\mathcal Z \mid \mathcal X,\theta)P(Z∣X,θ)两种概率分布之间差异性的一种度量。
    −∫ZQ(Z)log⁡P(Z∣X,θ)Q(Z)dZ=KL(Q(Z)∣∣P(Z∣X,θ))- \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)} d\mathcal Z = \mathcal K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta))−∫Z​Q(Z)logQ(Z)P(Z∣X,θ)​dZ=KL(Q(Z)∣∣P(Z∣X,θ))
    观察该式第一项,它同样有一个词描绘它:证据下界(Evidence Lower Bound,ELBO)。它的实际意义可表示为:log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)的下界
    可以将上述结果进行整理,表示如下:
    ∫ZQ(Z)⋅log⁡P(X∣θ)dZ=∫ZQ(Z)[log⁡P(X,Z∣θ)Q(Z)−log⁡P(Z∣X,θ)Q(Z)]dZ→log⁡P(X∣θ)=ELBO+KL(Q(Z)∣∣P(Z∣X,θ))\begin{aligned}\int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log P(\mathcal X \mid \theta) d\mathcal Z & = \int_{\mathcal Z} \mathcal Q(\mathcal Z) \left[\log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} - \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)}\right] d\mathcal Z \\ \to \log P(\mathcal X \mid \theta) & = ELBO + \mathcal K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta)) \end{aligned}∫Z​Q(Z)⋅logP(X∣θ)dZ→logP(X∣θ)​=∫Z​Q(Z)[logQ(Z)P(X,Z∣θ)​−logQ(Z)P(Z∣X,θ)​]dZ=ELBO+KL(Q(Z)∣∣P(Z∣X,θ))​
    基于KL\mathcal K\mathcal LKL散度的性质
    KL(Q(Z)∣∣P(Z∣X,θ))≥0\mathcal K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta)) \geq 0KL(Q(Z)∣∣P(Z∣X,θ))≥0
    则有:log⁡P(X∣θ)≥ELBO\log P(\mathcal X \mid \theta) \geq ELBOlogP(X∣θ)≥ELBO恒成立。因此log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)存在下界ELBOELBOELBO。什么时候可以取等?根据KL\mathcal K\mathcal LKL散度的性质,当:
    实际意义即:Q(Z)\mathcal Q(\mathcal Z)Q(Z)P(Z∣X,θ)P(\mathcal Z \mid \mathcal X,\theta)P(Z∣X,θ)的概率分布完全相同。
    Q(Z)=P(Z∣X,θ)→KL(Q(Z)∣∣P(Z∣X,θ))=0→log⁡P(X∣θ)=ELBO\begin{aligned}\mathcal Q(\mathcal Z)=P(\mathcal Z \mid \mathcal X,\theta) & \to \mathcal K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta)) = 0 \\ & \to \log P(\mathcal X \mid \theta) = ELBO \end{aligned}Q(Z)=P(Z∣X,θ)​→KL(Q(Z)∣∣P(Z∣X,θ))=0→logP(X∣θ)=ELBO​
    观察该式子,实际上,Q(Z)\mathcal Q(\mathcal Z)Q(Z)和P(Z∣X,θ)P(\mathcal Z \mid \mathcal X,\theta)P(Z∣X,θ)在迭代过程中总是要越来越近似的(这两个式子都表示关于隐变量Z\mathcal ZZ的概率分布,两个分布越来越大自然是不合理的)。

    基于上述推测,KL(Q(Z)∣∣P(Z∣X,θ))K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta))KL(Q(Z)∣∣P(Z∣X,θ))会逐渐向0逼近
    但我们的核心目标依然是 让log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)最大,但由于KL(Q(Z)∣∣P(Z∣X,θ))K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta))KL(Q(Z)∣∣P(Z∣X,θ)) 虽然≥0\geq0≥0恒成立,但因其向0逼近,导致KL(Q(Z)∣∣P(Z∣X,θ))K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta))KL(Q(Z)∣∣P(Z∣X,θ))不能分担log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)增大的任务

    因此,基于上述推测,一个朴素想法是:
    在Q(Z)\mathcal Q(\mathcal Z)Q(Z)和P(Z∣X,θ)P(\mathcal Z \mid\mathcal X,\theta)P(Z∣X,θ)相等的条件下,使得ELBOELBOELBO结果达到最大。从而使log⁡P(X∣θ)\log P(\mathcal X \mid \theta)logP(X∣θ)达到最大
    。即:
    注意:这是两个步骤~
    θ^=arg⁡max⁡θlog⁡P(X∣θ)=arg⁡max⁡θELBO(Q(Z)=P(Z∣X,θ))\hat \theta = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta) = \mathop{\arg\max}\limits_{\theta} ELBO \quad(\mathcal Q(\mathcal Z) = P(\mathcal Z \mid \mathcal X,\theta))θ^=θargmax​logP(X∣θ)=θargmax​ELBO(Q(Z)=P(Z∣X,θ))
    将ELBOELBOELBO带入,有:
    θ^=arg⁡max⁡θ∫ZQ(Z)log⁡P(X,Z∣θ)Q(Z)dZ\hat \theta = \mathop{\arg\max}\limits_{\theta} \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} d\mathcal Zθ^=θargmax​∫Z​Q(Z)logQ(Z)P(X,Z∣θ)​dZ
    此时,将Q(Z)=P(Z∣X,θ(t))\mathcal Q(\mathcal Z) = P(\mathcal Z \mid \mathcal X,\theta^{(t)})Q(Z)=P(Z∣X,θ(t))代入:
    注意:此时的P(Z∣X,θ(t))P(\mathcal Z \mid \mathcal X,\theta^{(t)})P(Z∣X,θ(t))表示‘上一次迭代’隐变量Z\mathcal ZZ的后验概率分布,而不是抽象的P(Z∣X,θ)P(\mathcal Z \mid \mathcal X,\theta)P(Z∣X,θ)本身。
    个人理解:
    解释一下这里将上标(t)(t)(t)加上:我们需要KL(Q(Z)∣∣P(Z∣X,θ))=0K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta)) = 0KL(Q(Z)∣∣P(Z∣X,θ))=0,因此需要Q(Z)=P(Z∣X,θ)\mathcal Q(\mathcal Z) = P(\mathcal Z \mid \mathcal X,\theta)Q(Z)=P(Z∣X,θ);
    当前迭代步骤最优的后验概率P(Z∣X,θ)P(\mathcal Z \mid \mathcal X,\theta)P(Z∣X,θ)理论上应该是P(Z∣X,θ(t+1))P(\mathcal Z \mid \mathcal X,\theta^{(t+1)})P(Z∣X,θ(t+1)),但是θ(t+1)\theta^{(t+1)}θ(t+1)是本次迭代需要求解的模型参数。因此P(Z∣X,θ(t+1))P(\mathcal Z \mid \mathcal X,\theta^{(t+1)})P(Z∣X,θ(t+1))在当前迭代步骤中不存在。
    因此,只能找一个当前迭代步骤下,最优的一组关于隐变量Z\mathcal ZZ的概率分布;根据EM算法公式的收敛性,当前迭代步骤下的最优结果自然是‘上一次迭代的模型参数’θ(t)\theta^{(t)}θ(t)产生的后验概率结果P(Z∣X,θ(t))P(\mathcal Z \mid \mathcal X,\theta^{(t)})P(Z∣X,θ(t))。
    因此Q(Z)=P(Z∣X,θ(t))\mathcal Q(\mathcal Z) = P(\mathcal Z \mid \mathcal X,\theta^{(t)})Q(Z)=P(Z∣X,θ(t))可能不会使KL(Q(Z)∣∣P(Z∣X,θ))=0K\mathcal L(\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta)) = 0KL(Q(Z)∣∣P(Z∣X,θ))=0,但不可否认的是,它绝对是距离000最近的那一个。
    θ^=arg⁡max⁡θ∫ZP(Z∣X,θ(t))log⁡[P(X,Z∣θ)P(Z∣X,θ(t))]dZ\hat \theta = \mathop{\arg\max}\limits_{\theta} \int_{\mathcal Z} P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log \left[\frac{P(\mathcal X,\mathcal Z \mid \theta)}{ P(\mathcal Z \mid \mathcal X,\theta^{(t)})}\right] d\mathcal Zθ^=θargmax​∫Z​P(Z∣X,θ(t))log[P(Z∣X,θ(t))P(X,Z∣θ)​]dZ
    将上式展开:
    θ^=arg⁡max⁡θ{∫ZP(Z∣X,θ(t))log⁡P(X,Z∣θ)dZ−∫ZP(Z∣X,θ(t))log⁡P(Z∣X,θ(t))}\hat \theta = \mathop{\arg\max}\limits_{\theta} \left\{\int_{\mathcal Z} P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log P(\mathcal X,\mathcal Z \mid \theta) d\mathcal Z - \int_{\mathcal Z} P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \right\}θ^=θargmax​{∫Z​P(Z∣X,θ(t))logP(X,Z∣θ)dZ−∫Z​P(Z∣X,θ(t))logP(Z∣X,θ(t))}
    观察大括号中的第二项
    ∫ZP(Z∣X,θ(t))log⁡P(Z∣X,θ(t))\int_{\mathcal Z} P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log P(\mathcal Z \mid \mathcal X,\theta^{(t)})∫Z​P(Z∣X,θ(t))logP(Z∣X,θ(t))
    其中θ(t)\theta^{(t)}θ(t)是上一次迭代产生的最优模型参数,在本次迭代过程中相当于常数。因此第二项和θ\thetaθ无关。整理后可得:
    θ^=arg⁡max⁡θ∫Zlog⁡P(X,Z∣θ)P(Z∣X,θ(t))dZ\hat \theta = \mathop{\arg\max}\limits_{\theta}\int_{\mathcal Z } \log P(\mathcal X,\mathcal Z\mid \theta) P(\mathcal Z \mid \mathcal X ,\theta^{(t)})d\mathcal Zθ^=θargmax​∫Z​logP(X,Z∣θ)P(Z∣X,θ(t))dZ

证毕。

相关参考:
机器学习-EM算法2(公式导出之ELBO+KL Divergence)

机器学习笔记之EM算法(二)EM算法公式推导过程相关推荐

  1. Python3:《机器学习笔记与实战》之Knn算法(2)识别手写数字

    Python3:<机器学习笔记与实战>之Knn算法(2)识别手写数字 转载请注明作者和出处:https://blog.csdn.net/weixin_41858342/article/de ...

  2. 李弘毅机器学习笔记:第十二章—Recipe of Deep Learning

    李弘毅机器学习笔记:第十二章-Recipe of Deep Learning 神经网络的表现 如何改进神经网络? 新的激活函数 梯度消失 怎么样去解决梯度消失? Adaptive Learning R ...

  3. 机器学习笔记(3)——使用聚类分析算法对文本分类(分类数k未知)

    聚类分析是一种无监督机器学习(训练样本的标记信息是未知的)算法,它的目标是将相似的对象归到同一个簇中,将不相似的对象归到不同的簇中.如果要使用聚类分析算法对一堆文本分类,关键要解决这几个问题: 如何衡 ...

  4. 机器学习笔记(10)——逻辑回归算法优化之随机梯度下降法

    在上一篇文章<机器学习笔记(9)--深入理解逻辑回归算法及其Python实现>中,详细学习了逻辑回归算法的分类原理和使用梯度下降法来最小化损失函数的数学推导过程,从而拟合出分类函数的参数θ ...

  5. 机器学习笔记(七)——逻辑回归算法

    逻辑回归(Logistic Regression,LR).在Kaggle竞赛的统计中,LR算法以63.5%的出产率,荣获各领域中"出场率最高的算法"这一殊荣.在实际场景中,逻辑回归 ...

  6. 机器学习笔记马尔可夫链蒙特卡洛方法(二)马尔可夫链与平稳分布

    机器学习笔记之马尔可夫链蒙特卡洛方法--马尔可夫链与平稳分布 引言 回顾:蒙特卡洛方法 马尔可夫链与平稳分布 马尔可夫链 平稳分布 细致平衡 关于平稳分布的补充 马尔可夫链的本质 平稳分布的收敛性证明 ...

  7. 机器学习笔记(三)—— 二向箔(从PCA到SVD)

    还记得<三体>中的"二向箔"吗?那种降维打击真的令人印象深刻!"我毁灭你,与你何干!"我想这应该算是所有科幻小说中排的上号的攻击手段了吧~ 现在,我 ...

  8. 机器学习笔记之受限玻尔兹曼机(二)模型表示

    机器学习笔记之受限玻尔兹曼机--模型表示 引言 回顾:玻尔兹曼分布 玻尔兹曼机 关于玻尔兹曼机的问题 受限玻尔兹曼机 引言 上一节基于马尔可夫随机场介绍了玻尔兹曼分布,本节将介绍受限玻尔兹曼机的模型表 ...

  9. 机器学习笔记之深度玻尔兹曼机(二)深度玻尔兹曼机的预训练过程

    机器学习笔记之深度玻尔兹曼机--深度玻尔兹曼机的预训练过程 引言 深度信念网络预训练过程的问题 深度玻尔兹曼机的预训练过程(2023/1/24) 引言 上一节介绍了玻尔兹曼机系列的相关模型,本节将介绍 ...

最新文章

  1. jQuery学习笔记(一)
  2. R语言ggplot2可视化绘制分组水平条形图并在条形图的各种位置添加数值标签实战
  3. C语言实现单链表的逆置
  4. 非因果滤波器 matlab,对于无阶跃响应不会过冲的无因果低通滤波器,最清晰的频率响应是什么?...
  5. springmvc + ajaxfileupload 实现异步上传文件(图片)
  6. 权限丢失_不要让任何“账户权限”问题困扰你!
  7. django之orm的高级操作以及xcc安全攻击
  8. 使用qt多线程的一个简单方法
  9. Java多线程 ReentrantLock、Condition 实现生产者、消费者协作模式
  10. nodeName、nodeValue 以及 nodeType 包含有关于节点的信息
  11. Unity 编辑器下控制播放Animator
  12. 电影下载、播放、制作、转换、各类问题全攻略
  13. WinCC语音报警实现方法
  14. 如何备份光猫html文件夹,华为光猫备份jffs2及HG8321R-RMS切换HG8321版本教程
  15. c语言逻辑运算符的运算符优先级,逻辑运算符及其优先级,C语言逻辑运算符及其优先级详解(示例代码)...
  16. uni-app ucharts无法显示
  17. 【JSTL】choose标签
  18. 小米手机如何更换铃声和微信提示音
  19. 埃拉托色尼筛选法巧解质数问题(埃氏筛法求解素数问题)
  20. CentOS 7无法启动,在进度条卡死问题解决

热门文章

  1. Mastercam2021四五多轴基础到实战案例视频教程
  2. 无需宏,PPT也能用来投递恶意程序
  3. 阿里巴巴16字管理真言
  4. PostgreSQL数据库xlog文件命名
  5. 【报告分享】时尚魔盒:鞋靴行业-阿里巴巴国际站(附下载)
  6. indexOf() 不区分大小写
  7. js中indexOf参数问题
  8. python-数据库开发
  9. validform简单用法
  10. nohup 不输出日志文件方法