此文章主要是结合哔站shuhuai008大佬的白板推导视频:受限玻尔兹曼机_155min

全部笔记的汇总贴:机器学习-白板推导系列笔记

玻尔兹曼机介绍:白板推导系列笔记(二十八)-玻尔兹曼机

一、背景介绍

RBM(Restricted Boltzmann Machine)

(一)玻尔兹曼机

玻尔兹曼机(Boltzmann Machine)可以说它就是一个马尔科夫随机场(Markov Random Field),简单来说就是一个无向图模型,是一种随机神经网络,借鉴了模拟退火思想,因为使用了玻尔兹曼分布作为激活函数,所以称为玻尔兹曼机

如下图所示,将无向图中的节点分为两类,阴影的节点为Observed Variable(用vvv表示),另一类为Hidden Variable(用hhh表示)

(二)因子分解

既然说玻尔兹曼机是一种特殊的马尔科夫随机场,我们首先回顾一下马尔科夫随机场的因子分解。

马尔科夫随机场的因子分解是基于最大团的,其中:

Ci:最大团,ψi(xci):势函数(potentialfunction)Z:归一化因子(配分函数partitionfunction)C_i:最大团,\psi_i(x_{ci}):势函数(potential\;function) Z:归一化因子(配分函数partition\;function)Ci​:最大团,ψi​(xci​):势函数(potentialfunction)Z:归一化因子(配分函数partitionfunction)
P(x)=1Z∏i=1Kψi(xci)P(x)=\frac1Z\prod^K_{i=1}\psi_i(x_{ci})P(x)=Z1​i=1∏K​ψi​(xci​)S.t.:ψi严格大于0Z=∑x∏i=1Kψi(xci)=∑x1∑x2⋯∑xp∏i=1Kψi(xci)S.t.:\psi_i严格大于0\\Z=\sum_x\prod^K_{i=1}\psi_i(x_{ci})=\sum_{x_1}\sum_{x_2}\cdots\sum_{x_p}\prod^K_{i=1}\psi_i(x_{ci})S.t.:ψi​严格大于0Z=x∑​i=1∏K​ψi​(xci​)=x1​∑​x2​∑​⋯xp​∑​i=1∏K​ψi​(xci​)
因为ψi严格大于0,所以我们取ψi(xci)=exp⁡{−E(xci)},其中E为能量函数(EnergyFunction)因为\psi_i严格大于0,所以我们取\psi_i(x_{ci})=\exp\{-E(x_{ci})\},其中E为能量函数(Energy\;Function)因为ψi​严格大于0,所以我们取ψi​(xci​)=exp{−E(xci​)},其中E为能量函数(EnergyFunction)
所以,P(x)=1Z∏i=1Kψi(xci)=1Zexp⁡{−∑i=1KE(xci)}⏟指数族分布P(x)=\frac1Z\prod^K_{i=1}\psi_i(x_{ci})=\underset{指数族分布}{\underbrace{\frac1Z\exp\{-\sum^K_{i=1}E(x_{ci})\}}}P(x)=Z1​i=1∏K​ψi​(xci​)=指数族分布Z1​exp{−i=1∑K​E(xci​)}​​

所以,我们将最大团结合到xxx中去,可以得到,P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1​exp{−E(x​)}
这就是玻尔兹曼分布(Boltzmann Distribution)或者吉布斯分布(Gibbs Distribution)

(三)玻尔兹曼分布

这是一个统计物理学的概念,是一个物理系统,具体可以看看视频的讲解,这篇文章也可以看看:玻尔兹曼机。

二、模型表示

(一)RBM的模型推导

对于xxx,我们可以令x=(x1,x2,⋯,xp)Tx=(x_1,x_2,\cdots,x_p)^Tx=(x1​,x2​,⋯,xp​)T,也可以将xxx分为隐变量和观测变量两部分,即x=(hv)x=\left(\begin{matrix} h\\v\end{matrix}\right )x=(hv​),其中,

h=(h1,h2,⋯,hm)Tv=(v1,v2,⋯,vp)Tm+n=ph=(h_1,h_2,\cdots,h_m)^T\\v=(v_1,v_2,\cdots,v_p)^T\\m+n=ph=(h1​,h2​,⋯,hm​)Tv=(v1​,v2​,⋯,vp​)Tm+n=p


Boltzmann machine的问题:Inference。精确推断几乎不可能,近似推断计算量过大。因此需要对这个模型进行简化,也就引出了受限玻尔兹曼机(Restricted Boltzmann Machine),即只在h,vh,vh,v之间有连接,h,vh,vh,v内部无连接。

所以,P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1​exp{−E(x​)}可以化为:

P(v,h)=1Zexp⁡{−E(v,h)}P(v,h)=\frac1Z\exp\{-E(v,h)\}P(v,h)=Z1​exp{−E(v,h)}

我们假设E(v,h)=−(hTwv+αTv+βTh)E(v,h)=-(h^Twv+\alpha^T v+\beta^T h)E(v,h)=−(hTwv+αTv+βTh),所以,

P(v,h)=1Zexp⁡{hTwv+αTv+βTh}=1Zexp⁡{hTwv}⋅exp⁡{αTv}⋅exp⁡{βTh}P(v,h)=\frac1Z\exp\{h^Twv+\alpha^T v+\beta^T h\}\\=\frac1Z\exp\{h^Twv\}\cdot\exp\{\alpha^T v\}\cdot\exp\{\beta^T h\}P(v,h)=Z1​exp{hTwv+αTv+βTh}=Z1​exp{hTwv}⋅exp{αTv}⋅exp{βTh}

可以参考白板推导系列笔记(九)-概率图模型中的因子图(factor graph view),可以发现上式中的每一项都对应一个因子。

所以,RBM的pdf为:

P(v,h)=1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=1Z∏i=1m∏j=1nexp⁡(hiwijvj)⏟edge∏j=1nexp⁡(αjvj)⏟nodev∏i=1mexp⁡(βihi)⏟nodeh⏟factor其中,w,α,β均为参数P(v,h)=\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\frac1Z\underset{factor}{\underbrace{\underset{edge}{\underbrace{\prod^m_{i=1}\prod^n_{j=1}\exp(h_iw_{ij}v_j)}}\underset{node\;v}{\underbrace{\prod^n_{j=1}\exp(\alpha_jv_j)}}\underset{node\;h}{\underbrace{\prod^m_{i=1}\exp(\beta_ih_i)}}}}\\其中,w,\alpha,\beta均为参数P(v,h)=Z1​exp(hTwv)⋅exp(αTv)⋅exp(βTh)=Z1​factoredgei=1∏m​j=1∏n​exp(hi​wij​vj​)​​nodevj=1∏n​exp(αj​vj​)​​nodehi=1∏m​exp(βi​hi​)​​​​其中,w,α,β均为参数

(二)常见的概率图模型归纳

这一节是一个回顾(可以理解为上帝视角来看学过的所有概率图模型),有不懂的可以翻看之前的内容(我第一次刷的时候,就有一种把知识都串起来了的感觉)。

1. Naive Bayes(NB)

朴素贝叶斯假设也就是条件独立性假设。

xi⊥xj∣y(i≠j)x_i\perp x_j|y(i\neq j)xi​⊥xj​∣y(i​=j)

2. Gaussian Mixture Model(GMM)

高斯混合模型,引入了隐变量。

y∼y\simy∼离散的,kkk个选择
x∣y∼x|y\simx∣y∼Gaussian Dist

3. State Space Model(SSM)

状态空间模型,包括(HMM、Kalman Filter、Particle Filter),也引入了隐变量,有两个假设(a.齐次Markov b.观测独立)

4.Maximum Entropy Markov Model(MEMM)

是MEM(由LR过来)和HMM的一个综合。是一个判别模型,打破了观测独立假设。

5.Condition Random Filed(CRF)

条件随机场是一个判别模型,是一个无向图(MRF),打破了齐次马尔可夫假设。给定xxx的情况下yyy是一个马尔可夫随机场。
y∣x∼MRFy|x\sim MRFy∣x∼MRF

6.Linear Chain-CRF(LC-CRF)

特点和CRF类似。

7.Boltzmann Machine(BM)

玻尔兹曼机是无向的,引入了一组隐变量,他的PDF是指数族分布(玻尔兹曼分布、吉布斯分布)。P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1​exp{−E(x​)}

x={v,h},x为观测变量,h为隐变量x=\{v,h\},x为观测变量,h为隐变量x={v,h},x为观测变量,h为隐变量

8.Restricted Boltzmann Machine(RBM)

受限玻尔兹曼机首先满足玻尔兹曼机(BM)的所有特点,然后他是条件独立的(组内无连接)。

所以,对比以上的几种概率图模型,大概有以下几个特点(也是各种模型之间的区别):

  1. 方向(有向/无向) 边的角度\color{blue}{边的角度}边的角度
  2. 离散/连续(连续主要就是和高斯网络的结合) 点的角度\color{blue}{点的角度}点的角度
  3. 条件独立性 边的角度\color{blue}{边的角度}边的角度
  4. 隐变量(有的引入了,有的没有) 点的角度\color{blue}{点的角度}点的角度
  5. 概率密度函数(PDF)是否为指数族分布 结构的角度\color{blue}{结构的角度}结构的角度

三、模型推断

(一)后验概率

x=(x1x2⋮xp)=(hv)h=(h1h2⋮hm)v=(v1v2⋮vn)p=m+nx=\left(\begin{matrix} x_1\\x_2\\\vdots\\x_p\end{matrix}\right )=\left(\begin{matrix} h\\v\end{matrix}\right )\;\;h=\left(\begin{matrix} h_1\\h_2\\\vdots\\h_m\end{matrix}\right )\;\;v=\left(\begin{matrix} v_1\\v_2\\\vdots\\v_n\end{matrix}\right )\;\;p=m+nx=⎝⎜⎜⎜⎛​x1​x2​⋮xp​​⎠⎟⎟⎟⎞​=(hv​)h=⎝⎜⎜⎜⎛​h1​h2​⋮hm​​⎠⎟⎟⎟⎞​v=⎝⎜⎜⎜⎛​v1​v2​⋮vn​​⎠⎟⎟⎟⎞​p=m+n
P(x)=1Zexp⁡{−E(x)}P(x)=\frac1Z\exp\{-E(x_{})\}P(x)=Z1​exp{−E(x​)}
P(v,h)=1Zexp⁡{−E(v,h)}P(v,h)=\frac1Z\exp\{-E(v,h)\}P(v,h)=Z1​exp{−E(v,h)}
E(v,h)=−(hTwv+αTv+βTh)=−(∑i=1m∑j=1nhiwijvj+∑j=1nαjvj+∑i=1mβihi)E(v,h)=-(h^Twv+\alpha^T v+\beta^T h)\\=-(\sum^m_{i=1}\sum^n_{j=1}h_iw_{ij}v_j+\sum^n_{j=1}\alpha_jv_j+\sum^m_{i=1}\beta_ih_i)E(v,h)=−(hTwv+αTv+βTh)=−(i=1∑m​j=1∑n​hi​wij​vj​+j=1∑n​αj​vj​+i=1∑m​βi​hi​)
P(v,h)=1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=1Z∏i=1m∏j=1nexp⁡(hiwijvj)⏟edge∏j=1nexp⁡(αjvj)⏟nodev∏i=1mexp⁡(βihi)⏟nodeh⏟factorP(v,h)=\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\frac1Z\underset{factor}{\underbrace{\underset{edge}{\underbrace{\prod^m_{i=1}\prod^n_{j=1}\exp(h_iw_{ij}v_j)}}\underset{node\;v}{\underbrace{\prod^n_{j=1}\exp(\alpha_jv_j)}}\underset{node\;h}{\underbrace{\prod^m_{i=1}\exp(\beta_ih_i)}}}}P(v,h)=Z1​exp(hTwv)⋅exp(αTv)⋅exp(βTh)=Z1​factoredgei=1∏m​j=1∏n​exp(hi​wij​vj​)​​nodevj=1∏n​exp(αj​vj​)​​nodehi=1∏m​exp(βi​hi​)​​​​

目的:Inference→\rightarrow→posterior→p(h∣v),p(v∣h)\rightarrow\;\;p(h|v),p(v|h)→p(h∣v),p(v∣h)

求p(h∣v)p(h|v)p(h∣v)
给定vvv的条件下,所有的hhh之间是相互独立的。

所以,

p(h∣v)=∏l=1mp(hl∣v)p(h|v)=\prod^m_{l=1}\color{red}{p(h_l|v)}p(h∣v)=l=1∏m​p(hl​∣v)
p(hl=1∣v)=p(hl=1∣h−l,v)=p(hl=1,h−l,v)p(hl=1,h−l,v)+p(hl=0,h−l,v){\color{red}{p(h_l=1|v)}}=p(h_l=1|h_{-l},v)\\=\frac{\color{blue}{p(h_l=1,h_{-l},v)}}{\color{grey}{p(h_l=1,h_{-l},v)+p(h_l=0,h_{-l},v)}}p(hl​=1∣v)=p(hl​=1∣h−l​,v)=p(hl​=1,h−l​,v)+p(hl​=0,h−l​,v)p(hl​=1,h−l​,v)​
E(h,v)=−(∑i=1i≠lm∑j=1nhiwijvj+∑j=1nhlwijvj+∑j=1nαjvj+∑i=1i≠lmβihi+βlhl)E(h,v)=-(\sum^m_{i=1\;i\neq l}\sum^n_{j=1}h_iw_{ij}v_j+{\color{green}{\sum^n_{j=1}h_lw_{ij}v_j}}+\sum^n_{j=1}\alpha_jv_j+\sum^m_{i=1\;i\neq l}\beta_ih_i+{\color{green}{\beta_lh_l}})E(h,v)=−(i=1i​=l∑m​j=1∑n​hi​wij​vj​+j=1∑n​hl​wij​vj​+j=1∑n​αj​vj​+i=1i​=l∑m​βi​hi​+βl​hl​)

将上式中与hlh_lhl​有关的项提出来,发现是一个与vvv有关的函数,我们不妨令hlHl(v)=∑j=1nhlwijvj+βlhl=hl(∑j=1nwijvj+βl)h_lH_l(v)=\sum^n_{j=1}h_lw_{ij}v_j+\beta_lh_l\\=h_l(\sum^n_{j=1}w_{ij}v_j+\beta_l)hl​Hl​(v)=j=1∑n​hl​wij​vj​+βl​hl​=hl​(j=1∑n​wij​vj​+βl​)
即Hl(v)=∑j=1nhlwijvj+βlhl=∑j=1nwijvj+βlH_l(v)=\sum^n_{j=1}h_lw_{ij}v_j+\beta_lh_l\\=\sum^n_{j=1}w_{ij}v_j+\beta_lHl​(v)=∑j=1n​hl​wij​vj​+βl​hl​=∑j=1n​wij​vj​+βl​
Hl‾(h−l,v)=∑i=1i≠lm∑j=1nhiwijvj+∑j=1nαjvj+∑i=1i≠lmβihi\overline{H_l}(h_{-l},v)=\sum^m_{i=1\;i\neq l}\sum^n_{j=1}h_iw_{ij}v_j+\sum^n_{j=1}\alpha_jv_j+\sum^m_{i=1\;i\neq l}\beta_ih_iHl​​(h−l​,v)=i=1i​=l∑m​j=1∑n​hi​wij​vj​+j=1∑n​αj​vj​+i=1i​=l∑m​βi​hi​
所以,E(h,v)=−(hlHl(v)+Hl‾(h−l,v))E(h,v)=-(h_lH_l(v)+\overline{H_l}(h_{-l},v))E(h,v)=−(hl​Hl​(v)+Hl​​(h−l​,v))

p(hl=1,h−l,v)=1Zexp⁡{Hl(v)+Hl‾(h−l,v)}{\color{blue}{p(h_l=1,h_{-l},v)}}=\frac1Z\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}p(hl​=1,h−l​,v)=Z1​exp{Hl​(v)+Hl​​(h−l​,v)}
p(hl=1,h−l,v)+p(hl=0,h−l,v)=1Zexp⁡{Hl(v)+Hl‾(h−l,v)}+1Zexp⁡{Hl‾(h−l,v)}{\color{grey}{p(h_l=1,h_{-l},v)+p(h_l=0,h_{-l},v)}}=\frac1Z\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}+\frac1Z\exp\{\overline{H_l}(h_{-l},v)\}p(hl​=1,h−l​,v)+p(hl​=0,h−l​,v)=Z1​exp{Hl​(v)+Hl​​(h−l​,v)}+Z1​exp{Hl​​(h−l​,v)}
所以,
p(hl=1∣v)=exp⁡{Hl(v)+Hl‾(h−l,v)}exp⁡{Hl(v)+Hl‾(h−l,v)}+exp⁡{Hl‾(h−l,v)}=11+exp⁡{Hl‾(h−l,v)−(Hl(v)+Hl‾(h−l,v))}=11+exp⁡{−Hl(v)}=σ(Hl(v))=σ(∑j=1nwijvj+βl){\color{red}{p(h_l=1|v)}}=\frac{\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}}{\exp\{H_l(v)+\overline{H_l}(h_{-l},v)\}+\exp\{\overline{H_l}(h_{-l},v)\}}\\=\frac1{1+\exp\{\overline{H_l}(h_{-l},v)-(H_l(v)+\overline{H_l}(h_{-l},v))\}}\\=\frac1{1+\exp\{-H_l(v)\}}\\=\sigma(H_l(v))\\=\sigma(\sum^n_{j=1}w_{ij}v_j+\beta_l)p(hl​=1∣v)=exp{Hl​(v)+Hl​​(h−l​,v)}+exp{Hl​​(h−l​,v)}exp{Hl​(v)+Hl​​(h−l​,v)}​=1+exp{Hl​​(h−l​,v)−(Hl​(v)+Hl​​(h−l​,v))}1​=1+exp{−Hl​(v)}1​=σ(Hl​(v))=σ(j=1∑n​wij​vj​+βl​)

sigmoid函数:σ(x)=11+e−x\sigma(x)=\frac1{1+e^{-x}}σ(x)=1+e−x1​

同理可得:
p(v∣h)=∏l=1np(vl∣h)p(v|h)=\prod^n_{l=1}p(v_l|h)p(v∣h)=l=1∏n​p(vl​∣h)

联想:RBM→\rightarrow→神经网络
sigmoid→σ(x)=11+e−x\rightarrow \sigma(x)=\frac1{1+e^{-x}}→σ(x)=1+e−x1​

(二)边缘概率

目的:Inference→\rightarrow→ marginal →p(v)\rightarrow\;\;p(v)→p(v)

p(v)=∑hp(h,v)=∑h1Zexp⁡{−E(h,v)}=∑h1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=∑h1∑h2⋯∑hm1Zexp⁡(hTwv)⋅exp⁡(αTv)⋅exp⁡(βTh)=1Zexp⁡(αTv)⋅∑h1∑h2⋯∑hmexp⁡(hTwv)⋅exp⁡(βTh)=1Zexp⁡(αTv)⋅∑h1∑h2⋯∑hmexp⁡(∑i=1m(hiwiv+βihi))=1Zexp⁡(αTv)⋅∑h1∑h2⋯∑hmexp⁡(h1w1v+β1h1)⋅exp⁡(h2w2v+β2h2)⋯exp⁡(hmwmv+βmhm)=1Zexp⁡(αTv)⋅∑h1exp⁡(h1w1v+β1h1)⋅∑h2exp⁡(h2w2v+β2h2)⋯∑hmexp⁡(hmwmv+βmhm)=1Zexp⁡(αTv)⋅(1+exp⁡(w1v+β1))⋅(1+exp⁡(w2v+β2))⋯(1+exp⁡(wmv+βm))=1Zexp⁡(αTv)⋅exp⁡{log⁡(1+exp⁡(w1v+β1))}⋅exp⁡{log⁡(1+exp⁡(w2v+β2))}⋯exp⁡{log⁡(1+exp⁡(wmv+βm))}=1Zexp⁡(αTv+∑i=1mlog⁡(1+exp⁡(wiv+βi))⏟softplusfunction)=1Zexp⁡(αTv+∑i=1msoftplus(wiv+βi))p(v)=\sum_hp(h,v)=\sum_h\frac1Z\exp\{-E(h,v)\}\\=\sum_h\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\frac1Z\exp(h^Twv)\cdot\exp(\alpha^T v)\cdot\exp(\beta^T h)\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\exp(h^Twv)\cdot\exp(\beta^T h)\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\exp(\sum^m_{i=1}(h_iw_iv+\beta_i h_i))\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\sum_{h_2}\cdots\sum_{h_m}\exp(h_1w_1v+\beta_1 h_1)\cdot\exp(h_2w_2v+\beta_2 h_2)\cdots\exp(h_mw_mv+\beta_mh_m)\\=\frac1Z\exp(\alpha^T v)\cdot\sum_{h_1}\exp(h_1w_1v+\beta_1 h_1)\cdot\sum_{h_2}\exp(h_2w_2v+\beta_2 h_2)\cdots\sum_{h_m}\exp(h_mw_mv+\beta_mh_m)\\=\frac1Z\exp(\alpha^T v)\cdot(1+\exp(w_1v+\beta_1))\cdot(1+\exp(w_2v+\beta_2))\cdots(1+\exp(w_mv+\beta_m))\\=\frac1Z\exp(\alpha^T v)\cdot\exp\{\log(1+\exp(w_1v+\beta_1))\}\cdot\exp\{\log(1+\exp(w_2v+\beta_2))\}\cdots\exp\{\log(1+\exp(w_mv+\beta_m))\}\\=\frac1Z\exp(\alpha^T v+\sum_{i=1}^m\underset{softplus\;function}{\underbrace{\log(1+\exp(w_iv+\beta_i))}})\\=\frac1Z\exp(\alpha^T v+\sum_{i=1}^msoftplus(w_iv+\beta_i))p(v)=h∑​p(h,v)=h∑​Z1​exp{−E(h,v)}=h∑​Z1​exp(hTwv)⋅exp(αTv)⋅exp(βTh)=h1​∑​h2​∑​⋯hm​∑​Z1​exp(hTwv)⋅exp(αTv)⋅exp(βTh)=Z1​exp(αTv)⋅h1​∑​h2​∑​⋯hm​∑​exp(hTwv)⋅exp(βTh)=Z1​exp(αTv)⋅h1​∑​h2​∑​⋯hm​∑​exp(i=1∑m​(hi​wi​v+βi​hi​))=Z1​exp(αTv)⋅h1​∑​h2​∑​⋯hm​∑​exp(h1​w1​v+β1​h1​)⋅exp(h2​w2​v+β2​h2​)⋯exp(hm​wm​v+βm​hm​)=Z1​exp(αTv)⋅h1​∑​exp(h1​w1​v+β1​h1​)⋅h2​∑​exp(h2​w2​v+β2​h2​)⋯hm​∑​exp(hm​wm​v+βm​hm​)=Z1​exp(αTv)⋅(1+exp(w1​v+β1​))⋅(1+exp(w2​v+β2​))⋯(1+exp(wm​v+βm​))=Z1​exp(αTv)⋅exp{log(1+exp(w1​v+β1​))}⋅exp{log(1+exp(w2​v+β2​))}⋯exp{log(1+exp(wm​v+βm​))}=Z1​exp(αTv+i=1∑m​softplusfunctionlog(1+exp(wi​v+βi​))​​)=Z1​exp(αTv+i=1∑m​softplus(wi​v+βi​))

softplus function:f(x)=log⁡(1+ex)f(x)=\log(1+e^x)f(x)=log(1+ex)

所以,
p(v)=1Zexp⁡(αTv+∑i=1msoftplus(wiv+βi))其中,wi是w矩阵的行向量p(v)=\frac1Z\exp(\alpha^T v+\sum_{i=1}^msoftplus(w_iv+\beta_i))\\其中,w_i是w矩阵的行向量p(v)=Z1​exp(αTv+i=1∑m​softplus(wi​v+βi​))其中,wi​是w矩阵的行向量

Learning问题求解可以查看:白板推导系列笔记(二十四)-直面配分函数的第四大点。

\;
\;
\;
\;
\;
\;
\;

下一章传送门:白板推导系列笔记(二十二)-谱聚类

机器学习-白板推导系列笔记(二十一)-RBM相关推荐

  1. 机器学习-白板推导系列笔记(二十八)-BM

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记 参考花书20.1 一.介绍 玻尔兹曼机连接的每个节点都是离散的二值分 ...

  2. 机器学习-白板推导系列笔记(十二)-变分推断(VI)

    此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景 对于概率模型 从频率派角度来看就会是一个优化问题 从贝 ...

  3. 机器学习-白板推导系列笔记(十三)-MCMC

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.蒙特卡洛方法 蒙特卡洛方法(Monte Carlo Method) ...

  4. 机器学习-白板推导系列笔记(三十四)-MDP

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景介绍 Random Variable:XYX⊥YX\; ...

  5. 机器学习-白板推导-系列(五)笔记:降维(PCA/SVD/PCoA/PPCA)

    文章目录 0 笔记说明 1 背景 1.1 样本均值 1.2 样本协方差矩阵 2 主成分分析PCA 2.1 最大投影方差 2.2 最小重构距离 2.3 总结 3 SVD分解HX 4 主坐标分析PCoA ...

  6. 机器学习-白板推导系列(三十)-生成模型(Generative Model)

    机器学习-白板推导系列(三十)-生成模型(Generative Model) 30.1 生成模型的定义 前面所详细描述的模型以浅层的机器学习为主.本章将承上启下引出后面深度机器学习的部分.本小节,主要 ...

  7. 机器学习-白板推导-系列(九)笔记:概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图

    文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

  8. 机器学习-白板推导-系列(十)笔记:EM算法

    文章目录 0 笔记说明 1 算法收敛性证明 2 公式导出 2.1 ELBO+KL Divergence 2.2 ELBO+Jensen Inequlity 2.3 最后的工作 3 从狭义EM到广义EM ...

  9. 机器学习-白板推导-系列(八)笔记:指数族分布/充分统计量/对数配分函数/最大熵

    文章目录 0 笔记说明 1 背景 1.1 指数族分布的一般形式 1.2 共轭先验 2 高斯分布的指数族形式 3 对数配分函数与充分统计量 4 极大似然估计与充分统计量 5 熵 5.1 最大熵⇔x服从均 ...

最新文章

  1. 最详细的IDEA中使用Debug教程
  2. 20154318_王秀飞 Exp2 后门原理与实践
  3. 保存web.config文件(转载)
  4. PHP删除文件unlink
  5. android compile使用方法,自己创建一个android studio在线依赖compile
  6. 从前,有只小仙女叫...
  7. energy in transition课文翻译_备战四六 | 四六级翻译常考固定表达,速记!
  8. kong组件_使用Kongzue全家桶组件创建项目全攻略(一、引入和沉浸式的那些事儿)...
  9. android开关控件Switch和ToggleButton
  10. css 精灵图的使用
  11. 阿里云运行python项目_荐个人博客开发-06:Nginx + uWSGI + Django项目部署到阿里云服务器运行...
  12. const常类型说明
  13. Win10数字签名错误/winload.exe 错误解决办法
  14. 计算机毕业设计Java大学生科技创新项目管理系统(源码+系统+mysql数据库+lw文档)
  15. Eege浏览器和Chrome浏览器选中文本朗读
  16. Win11 ARM64深度解析
  17. 雷神 911X 猎荒者评测
  18. 测试行业3年经验,从大厂裸辞后,面试阿里、字节全都一面挂,被面试官说我的水平还不如应届生
  19. jquery 自动表单赋值
  20. python array 行向量 列向量

热门文章

  1. IDEA报错:Command line is too long Shorten command line for xxx or also for JUnit default configuration
  2. 【干货】基于数据管理的堆垛机的PLC控制技术
  3. HCIP-Datacom 821/831题库以及上课笔记、视频、配套讲义分享
  4. 如何在照片中查找地理位置等信息
  5. python 模拟用户点击浏览器_python模拟一个浏览器
  6. coos2d 类详细之 CCTextFieldTTF
  7. CoOS使用教程——事件标志
  8. php中$tpl= add_member_info ;什么意思,织梦CMS 怎么样调用会员信息在个人模板info和index...
  9. oracle生产.jio格式,oracle 新的数据库新的change
  10. windows电脑安装centos虚拟机