此文章主要是结合哔站shuhuai008大佬的白板推导视频：受限玻尔兹曼机_155min

全部笔记的汇总贴：机器学习-白板推导系列笔记

玻尔兹曼机介绍：白板推导系列笔记（二十八）-玻尔兹曼机

一、背景介绍

RBM（Restricted Boltzmann Machine）

（一）玻尔兹曼机

玻尔兹曼机（Boltzmann Machine）可以说它就是一个马尔科夫随机场（Markov Random Field），简单来说就是一个无向图模型，是一种随机神经网络，借鉴了模拟退火思想，因为使用了玻尔兹曼分布作为激活函数，所以称为玻尔兹曼机。

如下图所示，将无向图中的节点分为两类，阴影的节点为Observed Variable（用vvv表示），另一类为Hidden Variable（用hhh表示）

（二）因子分解

既然说玻尔兹曼机是一种特殊的马尔科夫随机场，我们首先回顾一下马尔科夫随机场的因子分解。

马尔科夫随机场的因子分解是基于最大团的，其中：

Ci:最大团，ψi(xci):势函数（potentialfunction）Z:归一化因子（配分函数partitionfunction）C_i:最大团，\psi_i(x_{ci}):势函数（potential\;function） Z:归一化因子（配分函数partition\;function）Ci:最大团，ψi(xci):势函数（potentialfunction）Z:归一化因子（配分函数partitionfunction）
P(x)=1Z∏i=1Kψi(xci)P(x)=\frac1Z\prod^K_{i=1}\psi_i(x_{ci})P(x)=Z1i=1∏Kψi(xci)S.t.:ψi严格大于0Z=∑x∏i=1Kψi(xci)=∑x1∑x2⋯∑xp∏i=1Kψi(xci)S.t.:\psi_i严格大于0\\Z=\sum_x\prod^K_{i=1}\psi_i(x_{ci})=\sum_{x_1}\sum_{x_2}\cdots\sum_{x_p}\prod^K_{i=1}\psi_i(x_{ci})S.t.:ψi严格大于0Z=x∑i=1∏Kψi(xci)=x1∑x2∑⋯xp∑i=1∏Kψi(xci)
因为ψi严格大于0，所以我们取ψi(xci)=exp⁡{−E(xci)}，其中E为能量函数（EnergyFunction）因为\psi_i严格大于0，所以我们取\psi_i(x_{ci})=\exp\{-E(x_{ci})\}，其中E为能量函数（Energy\;Function）因为ψi严格大于0，所以我们取ψi(xci)=exp{−E(xci)}，其中E为能量函数（EnergyFunction）
所以，P(x)=1Z∏i=1Kψi(xci)=1Zexp⁡{−∑i=1KE(xci)}⏟指数族分布P(x)=\frac1Z\prod^K_{i=1}\psi_i(x_{ci})=\underset{指数族分布}{\underbrace{\frac1Z\exp\{-\sum^K_{i=1}E(x_{ci})\}}}P(x)=Z1i=1∏Kψi(xci)=指数族分布Z1exp{−i=1∑KE(xci)}

所以，我们将最大团结合到xxx中去，可以得到，P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1exp{−E(x)}
这就是玻尔兹曼分布（Boltzmann Distribution）或者吉布斯分布（Gibbs Distribution）

（三）玻尔兹曼分布

这是一个统计物理学的概念，是一个物理系统，具体可以看看视频的讲解，这篇文章也可以看看：玻尔兹曼机。

二、模型表示

（一）RBM的模型推导

对于xxx，我们可以令x=(x1,x2,⋯,xp)Tx=(x_1,x_2,\cdots,x_p)^Tx=(x1,x2,⋯,xp)T，也可以将xxx分为隐变量和观测变量两部分，即x=(hv)x=\left(\begin{matrix} h\\v\end{matrix}\right )x=(hv)，其中，

h=(h1,h2,⋯,hm)Tv=(v1,v2,⋯,vp)Tm+n=ph=(h_1,h_2,\cdots,h_m)^T\\v=(v_1,v_2,\cdots,v_p)^T\\m+n=ph=(h1,h2,⋯,hm)Tv=(v1,v2,⋯,vp)Tm+n=p

Boltzmann machine的问题：Inference。精确推断几乎不可能，近似推断计算量过大。因此需要对这个模型进行简化，也就引出了受限玻尔兹曼机（Restricted Boltzmann Machine），即只在h,vh,vh,v之间有连接，h,vh,vh,v内部无连接。

所以，P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1exp{−E(x)}可以化为：

P(v,h)=1Zexp⁡{−E(v,h)}P(v,h)=\frac1Z\exp\{-E(v,h)\}P(v,h)=Z1exp{−E(v,h)}

我们假设E(v,h)=−(hTwv+αTv+βTh)E(v,h)=-(h^Twv+\alpha^T v+\beta^T h)E(v,h)=−(hTwv+αTv+βTh)，所以，

P(v,h)=1Zexp⁡{hTwv+αTv+βTh}=1Zexp⁡{hTwv}⋅exp⁡{αTv}⋅exp⁡{βTh}P(v,h)=\frac1Z\exp\{h^Twv+\alpha^T v+\beta^T h\}\\=\frac1Z\exp\{h^Twv\}\cdot\exp\{\alpha^T v\}\cdot\exp\{\beta^T h\}P(v,h)=Z1exp{hTwv+αTv+βTh}=Z1exp{hTwv}⋅exp{αTv}⋅exp{βTh}

可以参考白板推导系列笔记（九）-概率图模型中的因子图（factor graph view），可以发现上式中的每一项都对应一个因子。

所以，RBM的pdf为：

P(v,h)=1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=1Z∏i=1m∏j=1nexp⁡(hiwijvj)⏟edge∏j=1nexp⁡(αjvj)⏟nodev∏i=1mexp⁡(βihi)⏟nodeh⏟factor其中，w,α,β均为参数P(v,h)=\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\frac1Z\underset{factor}{\underbrace{\underset{edge}{\underbrace{\prod^m_{i=1}\prod^n_{j=1}\exp(h_iw_{ij}v_j)}}\underset{node\;v}{\underbrace{\prod^n_{j=1}\exp(\alpha_jv_j)}}\underset{node\;h}{\underbrace{\prod^m_{i=1}\exp(\beta_ih_i)}}}}\\其中，w,\alpha,\beta均为参数P(v,h)=Z1exp(hTwv)⋅exp(αTv)⋅exp(βTh)=Z1factoredgei=1∏mj=1∏nexp(hiwijvj)nodevj=1∏nexp(αjvj)nodehi=1∏mexp(βihi)其中，w,α,β均为参数

（二）常见的概率图模型归纳

这一节是一个回顾（可以理解为上帝视角来看学过的所有概率图模型），有不懂的可以翻看之前的内容（我第一次刷的时候，就有一种把知识都串起来了的感觉）。

1. Naive Bayes(NB)

朴素贝叶斯假设也就是条件独立性假设。

xi⊥xj∣y(i≠j)x_i\perp x_j|y(i\neq j)xi⊥xj∣y(i=j)

2. Gaussian Mixture Model(GMM)

高斯混合模型，引入了隐变量。

y∼y\simy∼离散的，kkk个选择
x∣y∼x|y\simx∣y∼Gaussian Dist

3. State Space Model(SSM)

状态空间模型，包括(HMM、Kalman Filter、Particle Filter)，也引入了隐变量，有两个假设（a.齐次Markov b.观测独立）

4.Maximum Entropy Markov Model(MEMM)

是MEM（由LR过来）和HMM的一个综合。是一个判别模型，打破了观测独立假设。

5.Condition Random Filed(CRF)

条件随机场是一个判别模型，是一个无向图（MRF），打破了齐次马尔可夫假设。给定xxx的情况下yyy是一个马尔可夫随机场。
y∣x∼MRFy|x\sim MRFy∣x∼MRF

6.Linear Chain-CRF(LC-CRF)

特点和CRF类似。

7.Boltzmann Machine(BM)

玻尔兹曼机是无向的，引入了一组隐变量，他的PDF是指数族分布（玻尔兹曼分布、吉布斯分布）。P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1exp{−E(x)}

x={v,h},x为观测变量，h为隐变量x=\{v,h\},x为观测变量，h为隐变量x={v,h},x为观测变量，h为隐变量

8.Restricted Boltzmann Machine(RBM)

受限玻尔兹曼机首先满足玻尔兹曼机（BM）的所有特点，然后他是条件独立的（组内无连接）。

所以，对比以上的几种概率图模型，大概有以下几个特点（也是各种模型之间的区别）：

方向（有向/无向）边的角度\color{blue}{边的角度}边的角度
离散/连续（连续主要就是和高斯网络的结合）点的角度\color{blue}{点的角度}点的角度
条件独立性边的角度\color{blue}{边的角度}边的角度
隐变量（有的引入了，有的没有）点的角度\color{blue}{点的角度}点的角度
概率密度函数（PDF）是否为指数族分布结构的角度\color{blue}{结构的角度}结构的角度

三、模型推断

（一）后验概率

x=(x1x2⋮xp)=(hv)h=(h1h2⋮hm)v=(v1v2⋮vn)p=m+nx=\left(\begin{matrix} x_1\\x_2\\\vdots\\x_p\end{matrix}\right )=\left(\begin{matrix} h\\v\end{matrix}\right )\;\;h=\left(\begin{matrix} h_1\\h_2\\\vdots\\h_m\end{matrix}\right )\;\;v=\left(\begin{matrix} v_1\\v_2\\\vdots\\v_n\end{matrix}\right )\;\;p=m+nx=⎝⎜⎜⎜⎛x1x2⋮xp⎠⎟⎟⎟⎞=(hv)h=⎝⎜⎜⎜⎛h1h2⋮hm⎠⎟⎟⎟⎞v=⎝⎜⎜⎜⎛v1v2⋮vn⎠⎟⎟⎟⎞p=m+n
P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1exp{−E(x)}
P(v,h)=1Zexp⁡{−E(v,h)}P(v,h)=\frac1Z\exp\{-E(v,h)\}P(v,h)=Z1exp{−E(v,h)}
E(v,h)=−(hTwv+αTv+βTh)=−(∑i=1m∑j=1nhiwijvj+∑j=1nαjvj+∑i=1mβihi)E(v,h)=-(h^Twv+\alpha^T v+\beta^T h)\\=-(\sum^m_{i=1}\sum^n_{j=1}h_iw_{ij}v_j+\sum^n_{j=1}\alpha_jv_j+\sum^m_{i=1}\beta_ih_i)E(v,h)=−(hTwv+αTv+βTh)=−(i=1∑mj=1∑nhiwijvj+j=1∑nαjvj+i=1∑mβihi)
P(v,h)=1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=1Z∏i=1m∏j=1nexp⁡(hiwijvj)⏟edge∏j=1nexp⁡(αjvj)⏟nodev∏i=1mexp⁡(βihi)⏟nodeh⏟factorP(v,h)=\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\frac1Z\underset{factor}{\underbrace{\underset{edge}{\underbrace{\prod^m_{i=1}\prod^n_{j=1}\exp(h_iw_{ij}v_j)}}\underset{node\;v}{\underbrace{\prod^n_{j=1}\exp(\alpha_jv_j)}}\underset{node\;h}{\underbrace{\prod^m_{i=1}\exp(\beta_ih_i)}}}}P(v,h)=Z1exp(hTwv)⋅exp(αTv)⋅exp(βTh)=Z1factoredgei=1∏mj=1∏nexp(hiwijvj)nodevj=1∏nexp(αjvj)nodehi=1∏mexp(βihi)

目的：Inference→\rightarrow→posterior→p(h∣v),p(v∣h)\rightarrow\;\;p(h|v),p(v|h)→p(h∣v),p(v∣h)

求p(h∣v)p(h|v)p(h∣v)
给定vvv的条件下，所有的hhh之间是相互独立的。

所以，

p(h∣v)=∏l=1mp(hl∣v)p(h|v)=\prod^m_{l=1}\color{red}{p(h_l|v)}p(h∣v)=l=1∏mp(hl∣v)
p(hl=1∣v)=p(hl=1∣h−l,v)=p(hl=1,h−l,v)p(hl=1,h−l,v)+p(hl=0,h−l,v){\color{red}{p(h_l=1|v)}}=p(h_l=1|h_{-l},v)\\=\frac{\color{blue}{p(h_l=1,h_{-l},v)}}{\color{grey}{p(h_l=1,h_{-l},v)+p(h_l=0,h_{-l},v)}}p(hl=1∣v)=p(hl=1∣h−l,v)=p(hl=1,h−l,v)+p(hl=0,h−l,v)p(hl=1,h−l,v)
E(h,v)=−(∑i=1i≠lm∑j=1nhiwijvj+∑j=1nhlwijvj+∑j=1nαjvj+∑i=1i≠lmβihi+βlhl)E(h,v)=-(\sum^m_{i=1\;i\neq l}\sum^n_{j=1}h_iw_{ij}v_j+{\color{green}{\sum^n_{j=1}h_lw_{ij}v_j}}+\sum^n_{j=1}\alpha_jv_j+\sum^m_{i=1\;i\neq l}\beta_ih_i+{\color{green}{\beta_lh_l}})E(h,v)=−(i=1i=l∑mj=1∑nhiwijvj+j=1∑nhlwijvj+j=1∑nαjvj+i=1i=l∑mβihi+βlhl)

将上式中与hlh_lhl有关的项提出来，发现是一个与vvv有关的函数，我们不妨令hlHl(v)=∑j=1nhlwijvj+βlhl=hl(∑j=1nwijvj+βl)h_lH_l(v)=\sum^n_{j=1}h_lw_{ij}v_j+\beta_lh_l\\=h_l(\sum^n_{j=1}w_{ij}v_j+\beta_l)hlHl(v)=j=1∑nhlwijvj+βlhl=hl(j=1∑nwijvj+βl)
即Hl(v)=∑j=1nhlwijvj+βlhl=∑j=1nwijvj+βlH_l(v)=\sum^n_{j=1}h_lw_{ij}v_j+\beta_lh_l\\=\sum^n_{j=1}w_{ij}v_j+\beta_lHl(v)=∑j=1nhlwijvj+βlhl=∑j=1nwijvj+βl
Hl‾(h−l,v)=∑i=1i≠lm∑j=1nhiwijvj+∑j=1nαjvj+∑i=1i≠lmβihi\overline{H_l}(h_{-l},v)=\sum^m_{i=1\;i\neq l}\sum^n_{j=1}h_iw_{ij}v_j+\sum^n_{j=1}\alpha_jv_j+\sum^m_{i=1\;i\neq l}\beta_ih_iHl(h−l,v)=i=1i=l∑mj=1∑nhiwijvj+j=1∑nαjvj+i=1i=l∑mβihi
所以，E(h,v)=−(hlHl(v)+Hl‾(h−l,v))E(h,v)=-(h_lH_l(v)+\overline{H_l}(h_{-l},v))E(h,v)=−(hlHl(v)+Hl(h−l,v))

p(hl=1,h−l,v)=1Zexp⁡{Hl(v)+Hl‾(h−l,v)}{\color{blue}{p(h_l=1,h_{-l},v)}}=\frac1Z\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}p(hl=1,h−l,v)=Z1exp{Hl(v)+Hl(h−l,v)}
p(hl=1,h−l,v)+p(hl=0,h−l,v)=1Zexp⁡{Hl(v)+Hl‾(h−l,v)}+1Zexp⁡{Hl‾(h−l,v)}{\color{grey}{p(h_l=1,h_{-l},v)+p(h_l=0,h_{-l},v)}}=\frac1Z\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}+\frac1Z\exp\{\overline{H_l}(h_{-l},v)\}p(hl=1,h−l,v)+p(hl=0,h−l,v)=Z1exp{Hl(v)+Hl(h−l,v)}+Z1exp{Hl(h−l,v)}
所以，
p(hl=1∣v)=exp⁡{Hl(v)+Hl‾(h−l,v)}exp⁡{Hl(v)+Hl‾(h−l,v)}+exp⁡{Hl‾(h−l,v)}=11+exp⁡{Hl‾(h−l,v)−(Hl(v)+Hl‾(h−l,v))}=11+exp⁡{−Hl(v)}=σ(Hl(v))=σ(∑j=1nwijvj+βl){\color{red}{p(h_l=1|v)}}=\frac{\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}}{\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}+\exp\{\overline{H_l}(h_{-l},v)\}}\\=\frac1{1+\exp\{\overline{H_l}(h_{-l},v)-(H_l(v)+\overline{H_l}(h_{-l},v))\}}\\=\frac1{1+\exp\{-H_l(v)\}}\\=\sigma(H_l(v))\\=\sigma(\sum^n_{j=1}w_{ij}v_j+\beta_l)p(hl=1∣v)=exp{Hl(v)+Hl(h−l,v)}+exp{Hl(h−l,v)}exp{Hl(v)+Hl(h−l,v)}=1+exp{Hl(h−l,v)−(Hl(v)+Hl(h−l,v))}1=1+exp{−Hl(v)}1=σ(Hl(v))=σ(j=1∑nwijvj+βl)

sigmoid函数：σ(x)=11+e−x\sigma(x)=\frac1{1+e^{-x}}σ(x)=1+e−x1

同理可得：
p(v∣h)=∏l=1np(vl∣h)p(v|h)=\prod^n_{l=1}p(v_l|h)p(v∣h)=l=1∏np(vl∣h)

联想：RBM→\rightarrow→神经网络
sigmoid→σ(x)=11+e−x\rightarrow \sigma(x)=\frac1{1+e^{-x}}→σ(x)=1+e−x1

（二）边缘概率

目的：Inference→\rightarrow→ marginal →p(v)\rightarrow\;\;p(v)→p(v)

p(v)=∑hp(h,v)=∑h1Zexp⁡{−E(h,v)}=∑h1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=∑h1∑h2⋯∑hm1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=1Zexp⁡(αTv)⋅∑h1∑h2⋯∑hmexp⁡(hTwv)⋅exp⁡(βTh)=1Zexp⁡(αTv)⋅∑h1∑h2⋯∑hmexp⁡(∑i=1m(hiwiv+βihi))=1Zexp⁡(αTv)⋅∑h1∑h2⋯∑hmexp⁡(h1w1v+β1h1)⋅exp⁡(h2w2v+β2h2)⋯exp⁡(hmwmv+βmhm)=1Zexp⁡(αTv)⋅∑h1exp⁡(h1w1v+β1h1)⋅∑h2exp⁡(h2w2v+β2h2)⋯∑hmexp⁡(hmwmv+βmhm)=1Zexp⁡(αTv)⋅(1+exp⁡(w1v+β1))⋅(1+exp⁡(w2v+β2))⋯(1+exp⁡(wmv+βm))=1Zexp⁡(αTv)⋅exp⁡{log⁡(1+exp⁡(w1v+β1))}⋅exp⁡{log⁡(1+exp⁡(w2v+β2))}⋯exp⁡{log⁡(1+exp⁡(wmv+βm))}=1Zexp⁡(αTv+∑i=1mlog⁡(1+exp⁡(wiv+βi))⏟softplusfunction)=1Zexp⁡(αTv+∑i=1msoftplus(wiv+βi))p(v)=\sum_hp(h,v)=\sum_h\frac1Z\exp\{-E(h,v)\}\\=\sum_h\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\exp(h^Twv)\cdot\exp(\beta^T h)\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\exp(\sum^m_{i=1}(h_iw_iv+\beta_i h_i))\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\exp(h_1w_1v+\beta_1 h_1)\cdot\exp(h_2w_2v+\beta_2 h_2)\cdots\exp(h_mw_mv+\beta_mh_m)\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\exp(h_1w_1v+\beta_1 h_1)\cdot\sum_{h_2}\exp(h_2w_2v+\beta_2 h_2)\cdots\sum_{h_m}\exp(h_mw_mv+\beta_mh_m)\\=\frac1Z\exp(\alpha^T v)\cdot(1+\exp(w_1v+\beta_1))\cdot(1+\exp(w_2v+\beta_2))\cdots(1+\exp(w_mv+\beta_m))\\=\frac1Z\exp(\alpha^T v)\cdot\exp\{\log(1+\exp(w_1v+\beta_1))\}\cdot\exp\{\log(1+\exp(w_2v+\beta_2))\}\cdots\exp\{\log(1+\exp(w_mv+\beta_m))\}\\=\frac1Z\exp(\alpha^T v+\sum_{i=1}^m\underset{softplus\;function}{\underbrace{\log(1+\exp(w_iv+\beta_i))}})\\=\frac1Z\exp(\alpha^T v+\sum_{i=1}^msoftplus(w_iv+\beta_i))p(v)=h∑p(h,v)=h∑Z1exp{−E(h,v)}=h∑Z1exp(hTwv)⋅exp(αTv)⋅exp(βTh)=h1∑h2∑⋯hm∑Z1exp(hTwv)⋅exp(αTv)⋅exp(βTh)=Z1exp(αTv)⋅h1∑h2∑⋯hm∑exp(hTwv)⋅exp(βTh)=Z1exp(αTv)⋅h1∑h2∑⋯hm∑exp(i=1∑m(hiwiv+βihi))=Z1exp(αTv)⋅h1∑h2∑⋯hm∑exp(h1w1v+β1h1)⋅exp(h2w2v+β2h2)⋯exp(hmwmv+βmhm)=Z1exp(αTv)⋅h1∑exp(h1w1v+β1h1)⋅h2∑exp(h2w2v+β2h2)⋯hm∑exp(hmwmv+βmhm)=Z1exp(αTv)⋅(1+exp(w1v+β1))⋅(1+exp(w2v+β2))⋯(1+exp(wmv+βm))=Z1exp(αTv)⋅exp{log(1+exp(w1v+β1))}⋅exp{log(1+exp(w2v+β2))}⋯exp{log(1+exp(wmv+βm))}=Z1exp(αTv+i=1∑msoftplusfunctionlog(1+exp(wiv+βi)))=Z1exp(αTv+i=1∑msoftplus(wiv+βi))

softplus function：f(x)=log⁡(1+ex)f(x)=\log(1+e^x)f(x)=log(1+ex)

所以，
p(v)=1Zexp⁡(αTv+∑i=1msoftplus(wiv+βi))其中，wi是w矩阵的行向量p(v)=\frac1Z\exp(\alpha^T v+\sum_{i=1}^msoftplus(w_iv+\beta_i))\\其中，w_i是w矩阵的行向量p(v)=Z1exp(αTv+i=1∑msoftplus(wiv+βi))其中，wi是w矩阵的行向量

Learning问题求解可以查看：白板推导系列笔记（二十四）-直面配分函数的第四大点。

\;
\;
\;
\;
\;
\;
\;

下一章传送门：白板推导系列笔记（二十二）-谱聚类

机器学习-白板推导系列笔记（二十一）-RBM相关推荐

机器学习-白板推导系列笔记（二十八）-BM
此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记参考花书20.1 一.介绍玻尔兹曼机连接的每个节点都是离散的二值分 ...
机器学习-白板推导系列笔记（十二）-变分推断（VI）
此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.背景对于概率模型从频率派角度来看就会是一个优化问题从贝 ...
机器学习-白板推导系列笔记（十三）-MCMC
此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.蒙特卡洛方法蒙特卡洛方法(Monte Carlo Method) ...
机器学习-白板推导系列笔记（三十四）-MDP
此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.背景介绍 Random Variable:XYX⊥YX\; ...
机器学习-白板推导-系列（五）笔记：降维(PCA/SVD/PCoA/PPCA)
文章目录 0 笔记说明 1 背景 1.1 样本均值 1.2 样本协方差矩阵 2 主成分分析PCA 2.1 最大投影方差 2.2 最小重构距离 2.3 总结 3 SVD分解HX 4 主坐标分析PCoA ...
机器学习-白板推导系列(三十)-生成模型(Generative Model)
机器学习-白板推导系列(三十)-生成模型(Generative Model) 30.1 生成模型的定义前面所详细描述的模型以浅层的机器学习为主.本章将承上启下引出后面深度机器学习的部分.本小节,主要 ...
机器学习-白板推导-系列（九）笔记：概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图
文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...
机器学习-白板推导-系列（十）笔记：EM算法
文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM ...
机器学习-白板推导-系列（八）笔记：指数族分布/充分统计量/对数配分函数/最大熵
文章目录 0 笔记说明 1 背景 1.1 指数族分布的一般形式 1.2 共轭先验 2 高斯分布的指数族形式 3 对数配分函数与充分统计量 4 极大似然估计与充分统计量 5 熵 5.1 最大熵⇔x服从均 ...

机器学习-白板推导系列笔记（二十一）-RBM