文章目录

  • 21 RBM(Restricted Boltzmann Machine)——受限玻尔兹曼机
    • 21.1 背景介绍
    • 21.2 RBM模型表示
    • 21.3 Inference问题
    • 21.4 Marginal问题

21 RBM(Restricted Boltzmann Machine)——受限玻尔兹曼机

21.1 背景介绍

什么是玻尔兹曼机:

  • 简单来说就是具有条件的Markov Random Field(一个无向图模型)
  • 什么条件呢?加入了隐状态——使得无向图的节点分成两类:观测变量(observed variable)、隐变量(hidden variable)

对于一个无向图来说最重要的就是因子分解,所以玻尔兹曼机自然也可以:

  • Markov Random Field的因子分解基于Hammersley Clifford Theorem——通过最大团分解图:
    P ( X ) = 1 Z ∏ i = 1 K φ i ( X C i ) P(X) = \frac{1}{Z} \prod_{i=1}^K \varphi_i(X_{C_i}) P(X)=Z1​i=1∏K​φi​(XCi​​)
    其中 C i C_i Ci​表示最大团, φ i ( X C i ) \varphi_i(X_{C_i}) φi​(XCi​​)表示势函数(potential function), Z Z Z​表示归一化因子(配分函数-partition function),并且包含以下条件:
    { φ i ( X C i ) = exp ⁡ { − E ( X C i ) } > 0 Z = ∑ X ∏ i = 1 K φ i ( X C i ) = ∑ x 1 ∑ x 2 ⋯ ∑ x p ∏ i = 1 K φ i ( X C i ) \begin{cases} \varphi_i(X_{C_i}) = \exp{\lbrace -E(X_{C_i}) \rbrace} > 0 \\ Z = \sum_X \prod_{i=1}^K \varphi_i(X_{C_i}) = \sum_{x_1} \sum_{x_2} \dots \sum_{x_p} \prod_{i=1}^K \varphi_i(X_{C_i}) \\ \end{cases} {φi​(XCi​​)=exp{−E(XCi​​)}>0Z=∑X​∏i=1K​φi​(XCi​​)=∑x1​​∑x2​​⋯∑xp​​∏i=1K​φi​(XCi​​)​
    其中 E E E表示能量函数(Energy function),所以因子分解的公式也可以写成:
    P ( X ) = 1 Z exp ⁡ { − ∑ i = 1 K E ( X C i ) } P(X) = \frac{1}{Z} \exp{\lbrace - \sum_{i=1}^K E(X_{C_i}) \rbrace} P(X)=Z1​exp{−i=1∑K​E(XCi​​)}

  • 将因子分解的 ∑ i = 1 K E ( X C i ) \sum_{i=1}^K E(X_{C_i}) ∑i=1K​E(XCi​​)整合起来可以写作:
    P ( X ) = 1 Z exp ⁡ { − E ( X ) } P(X) = \frac{1}{Z} \exp{\lbrace - E(X) \rbrace} P(X)=Z1​exp{−E(X)}
    这个公式也可以叫做玻尔兹曼分布(Boltzmann Distribution)或是吉布斯分布(Gibbs Distribution)

21.2 RBM模型表示

我们先给玻尔兹曼机的数据做一些定义:

  • 数据集(节点)表示为 X = { x 1 , x 2 , … , x p } = { h , v } X = {\lbrace x_1, x_2, \dots, x_p \rbrace} = {\lbrace h, v \rbrace} X={x1​,x2​,…,xp​}={h,v}
  • 定义hidden node为 H = { h 1 , h 2 , … , x m } H = {\lbrace h_1, h_2, \dots, x_m \rbrace} H={h1​,h2​,…,xm​},observed node为 V = { v 1 , v 2 , … , v n } V = {\lbrace v_1, v_2, \dots, v_n \rbrace} V={v1​,v2​,…,vn​},并且有 m + n = p m+n=p m+n=p

我们先要知道玻尔兹曼机是什么,然后知道为什么要引入受限玻尔兹曼机:

  • 玻尔兹曼机就是一个有两种节点的无向图,但他有个问题,就是很难计算Inference。精确推断是intractable问题无法计算,近似推断通过MC的计算量也非常大。
  • 为了简化,我们定义了Restricted Boltzmann Machine,在图上的特点是: h , v h,v h,v之间有连接, h , v h,v h,v内部无连接。如图所示,这样可以减少很多计算量:

既然以及知道受限玻尔兹曼机是一个什么样的形式了,我们就可以推导他的公式了:

  1. 通过因子图的思想,我们可以将图的关系分成三部分:与observe node相关(用 α \alpha α表示参数)、与hidden node相关(用 β \beta β表示参数)、与两种节点都相关的边(用 W W W表示参数)

  2. 将已知条件都表示为矩阵形式:
    X = ( x 1 x 2 … x p ) = ( H V ) , H = ( h 1 h 2 … h m ) , V = ( v 1 v 2 … v m ) , p = m + n X = \begin{pmatrix} x_1 \\ x_2 \\ \dots \\ x_p \end{pmatrix} = \begin{pmatrix} H \\ V \\ \end{pmatrix} , \quad H = \begin{pmatrix} h_1 \\ h_2 \\ \dots \\ h_m \end{pmatrix} , \quad V = \begin{pmatrix} v_1 \\ v_2 \\ \dots \\ v_m \end{pmatrix}, \quad p=m+n X= ​x1​x2​…xp​​ ​=(HV​),H= ​h1​h2​…hm​​ ​,V= ​v1​v2​…vm​​ ​,p=m+n

  3. 根据上述两个条件,我们可以归纳为下面的公式:
    { P ( X ) = P ( V , H ) = 1 Z exp ⁡ { − E ( V , H ) } = 1 Z exp ⁡ { H T W V + α T V + β T H } E ( V , H ) = − ( H T W V + α T V + β T H ) \begin{cases} P(X) = P(V, H) = \frac{1}{Z} \exp{\lbrace - E(V, H) \rbrace} = \frac{1}{Z} \exp{\lbrace {H^T W V} + {\alpha^T V} + {\beta^T H} \rbrace} \\ E(V, H) = - {({H^T W V} + {\alpha^T V} + {\beta^T H})} \end{cases} {P(X)=P(V,H)=Z1​exp{−E(V,H)}=Z1​exp{HTWV+αTV+βTH}E(V,H)=−(HTWV+αTV+βTH)​
    我们通过相关关系,并加入参数可以得到该公式。

  4. 下面我们对上面的公式做一定的简化:
    P ( V , H ) = 1 Z exp ⁡ { H T W V + α T V + β T H } = 1 Z exp ⁡ { H T W V } ⋅ exp ⁡ { α T V } ⋅ exp ⁡ { β T H } = 1 Z ∏ i = 1 m ∏ j = 1 n exp ⁡ { h i w i j v j } ⋅ ∏ j = 1 n exp ⁡ { α j v j } ⋅ ∏ i = 1 m exp ⁡ { β i h i } \begin{align} P(V, H) &= \frac{1}{Z} \exp{\lbrace {H^T W V} + {\alpha^T V} + {\beta^T H} \rbrace} \\ &= \frac{1}{Z} \exp{\lbrace {H^T W V} \rbrace} \cdot \exp{\lbrace {\alpha^T V} \rbrace} \cdot \exp{\lbrace {\beta^T H} \rbrace} \\ &= \frac{1}{Z} \prod_{i=1}^m \prod_{j=1}^n \exp{\lbrace {h_i w_{ij} v_j} \rbrace} \cdot \prod_{j=1}^n \exp{\lbrace {\alpha_j v_j} \rbrace} \cdot \prod_{i=1}^m \exp{\lbrace {\beta_i h_i} \rbrace} \end{align} P(V,H)​=Z1​exp{HTWV+αTV+βTH}=Z1​exp{HTWV}⋅exp{αTV}⋅exp{βTH}=Z1​i=1∏m​j=1∏n​exp{hi​wij​vj​}⋅j=1∏n​exp{αj​vj​}⋅i=1∏m​exp{βi​hi​}​​

所以我们最后可以将RBM的pdf写成:
P ( V , H ) = 1 Z ∏ i = 1 m ∏ j = 1 n exp ⁡ { h i w i j v j } ⋅ ∏ j = 1 n exp ⁡ { α j v j } ⋅ ∏ i = 1 m exp ⁡ { β i h i } \begin{align} P(V, H) = \frac{1}{Z} \prod_{i=1}^m \prod_{j=1}^n \exp{\lbrace {h_i w_{ij} v_j} \rbrace} \cdot \prod_{j=1}^n \exp{\lbrace {\alpha_j v_j} \rbrace} \cdot \prod_{i=1}^m \exp{\lbrace {\beta_i h_i} \rbrace} \end{align} P(V,H)=Z1​i=1∏m​j=1∏n​exp{hi​wij​vj​}⋅j=1∏n​exp{αj​vj​}⋅i=1∏m​exp{βi​hi​}​​

21.3 Inference问题

RBM的Inference就是求解后验 P ( H ∣ V ) , P ( V ∣ H ) P(H|V), P(V|H) P(H∣V),P(V∣H),求解可以通过模型的条件独立性得出公式。

首先我们整理一下RBM已有的条件:

  1. 数据:
    X = ( x 1 x 2 … x p ) = ( H V ) , H = ( h 1 h 2 … h m ) , V = ( v 1 v 2 … v m ) , p = m + n X = \begin{pmatrix} x_1 \\ x_2 \\ \dots \\ x_p \end{pmatrix} = \begin{pmatrix} H \\ V \\ \end{pmatrix} , \quad H = \begin{pmatrix} h_1 \\ h_2 \\ \dots \\ h_m \end{pmatrix} , \quad V = \begin{pmatrix} v_1 \\ v_2 \\ \dots \\ v_m \end{pmatrix}, \quad p=m+n X= ​x1​x2​…xp​​ ​=(HV​),H= ​h1​h2​…hm​​ ​,V= ​v1​v2​…vm​​ ​,p=m+n

  2. 图形:

  3. 公式:
    { P ( V , H ) = 1 Z exp ⁡ { − E ( V , H ) } E ( V , H ) = − ( ∑ i = 1 m ∑ j = 1 n h i w i j v j + ∑ j = 1 n α j v j + ∑ i = 1 m β i h i ) \begin{cases} P(V, H) = \frac{1}{Z} \exp{\lbrace - E(V, H) \rbrace} \\ E(V, H) = - {(\sum_{i=1}^m \sum_{j=1}^n {h_i w_{ij} v_j} + \sum_{j=1}^n {\alpha_j v_j} + \sum_{i=1}^m {\beta_i h_i})} \end{cases} {P(V,H)=Z1​exp{−E(V,H)}E(V,H)=−(∑i=1m​∑j=1n​hi​wij​vj​+∑j=1n​αj​vj​+∑i=1m​βi​hi​)​

  4. 假设: h i h_i hi​此时为0/1变量

通过上述条件求解 P ( H ∣ V ) P(H|V) P(H∣V)( P ( V ∣ H ) P(V|H) P(V∣H)同理可得):

  1. 根据RBM模型中给定的条件独立性—— h , v h,v h,v之间有连接, h , v h,v h,v内部无连接。可得 h i ⊥ h j ∣ i ≠ j V {h_i \bot h_j |_{i \neq j} V} hi​⊥hj​∣i=j​V​,此时再根据贝叶斯定理可得:
    P ( H ∣ V ) = ∏ l = 1 m P ( h l ∣ V ) = ∏ l = 1 m P ( h l ∣ h − l , V ) = ∏ l = 1 m P ( h l , h − l , V ) P ( h − l , V ) = ∏ l = 1 m P ( h l , h − l , V ) P ( h − l , V ) = ∏ l = 1 m P ( h l , h − l , V ) ∑ h l P ( h l , h − l , V ) = ∏ l = 1 m P ( h l , h − l , V ) P ( h l = 0 , h − l , V ) + P ( h l = 1 , h − l , V ) \begin{align} P(H|V) &= \prod_{l=1}^m P(h_l|V) = \prod_{l=1}^m P(h_l|h_{-l}, V) = \prod_{l=1}^m \frac{P(h_l, h_{-l}, V)}{P(h_{-l}, V)} = \prod_{l=1}^m \frac{P(h_l, h_{-l}, V)}{P(h_{-l}, V)} \\ &= \prod_{l=1}^m \frac{P(h_l, h_{-l}, V)}{\sum_{h_l} P(h_l, h_{-l}, V)} = \prod_{l=1}^m \frac{P(h_l, h_{-l}, V)}{P(h_l = 0, h_{-l}, V) + P(h_l = 1, h_{-l}, V)} \end{align} P(H∣V)​=l=1∏m​P(hl​∣V)=l=1∏m​P(hl​∣h−l​,V)=l=1∏m​P(h−l​,V)P(hl​,h−l​,V)​=l=1∏m​P(h−l​,V)P(hl​,h−l​,V)​=l=1∏m​∑hl​​P(hl​,h−l​,V)P(hl​,h−l​,V)​=l=1∏m​P(hl​=0,h−l​,V)+P(hl​=1,h−l​,V)P(hl​,h−l​,V)​​​

  2. 由于此时 h l h_l hl​为已知条件,分子和分母都要通过公式 P ( V , H ) = 1 Z exp ⁡ { − E ( V , H ) } P(V, H) = \frac{1}{Z} \exp{\lbrace - E(V, H) \rbrace} P(V,H)=Z1​exp{−E(V,H)}进行计算,所以我们将 E ( V , H ) E(V, H) E(V,H)进行一个变换,将包含 h l h_l hl​项的函数定义为 H l H_l Hl​,不包含 h l h_l hl​项的函数定义为 H ˉ l {\bar H}_l Hˉl​​:
    E ( H ∣ V ) = − ( ∑ i = 1 m ∑ j = 1 n h i W v j + ∑ j = 1 n α T v j + ∑ i = 1 m β T h i ) = − ( ∑ i = 1 , i ≠ l m ∑ j = 1 n h i w i j v j + h l ∑ j = 1 n W l j v j ‾ + ∑ j = 1 n α j v j + ∑ i = 1 , i ≠ l m β i h i + β l h l ‾ ) \begin{align} E(H|V) &= - {(\sum_{i=1}^m \sum_{j=1}^n {h_i W v_j} + \sum_{j=1}^n {\alpha^T v_j} + \sum_{i=1}^m {\beta^T h_i})} \\ &= - {(\sum_{i=1, i \neq l}^m \sum_{j=1}^n {h_i w_{ij} v_j} + \underline{h_l \sum_{j=1}^n {W_{lj} v_j}} + \sum_{j=1}^n {\alpha_j v_j} + \sum_{i=1, i \neq l}^m {\beta_i h_i} + \underline{\beta_l h_l})} \\ \end{align} E(H∣V)​=−(i=1∑m​j=1∑n​hi​Wvj​+j=1∑n​αTvj​+i=1∑m​βThi​)=−(i=1,i=l∑m​j=1∑n​hi​wij​vj​+hl​j=1∑n​Wlj​vj​​+j=1∑n​αj​vj​+i=1,i=l∑m​βi​hi​+βl​hl​​)​​

  3. 根据简化,我们发现只有下划线的部分与 h l h_l hl​相关,其他与 h l h_l hl​​无关。所以我们可以将公式整理为:
    { E ( V , H ) = − ( h l H l ( v ) + H ˉ l ( h − l , v ) ) H l ( v ) = ∑ j = 1 n W l j v j + β l H ˉ l ( h − l , v ) = ∑ i = 1 , i ≠ l m ∑ j = 1 n h i w i j v j + ∑ j = 1 n α j v j + ∑ i = 1 , i ≠ l m β i h i \begin{cases} E(V, H) = - {\big( {h_l H_l(v)} + {{\bar H}_l(h_{-l}, v)} \big)} \\ H_l(v) = \sum_{j=1}^n {W_{lj} v_j} + \beta_l \\ {{\bar H}_l(h_{-l}, v)} = \sum_{i=1, i \neq l}^m \sum_{j=1}^n {h_i w_{ij} v_j} + \sum_{j=1}^n {\alpha_j v_j} + \sum_{i=1, i \neq l}^m {\beta_i h_i} \end{cases} ⎩ ⎨ ⎧​E(V,H)=−(hl​Hl​(v)+Hˉl​(h−l​,v))Hl​(v)=∑j=1n​Wlj​vj​+βl​Hˉl​(h−l​,v)=∑i=1,i=lm​∑j=1n​hi​wij​vj​+∑j=1n​αj​vj​+∑i=1,i=lm​βi​hi​​

  4. 我们原本的目标是求解 P ( H ∣ V ) P(H|V) P(H∣V),在前面的公式中我们知道他可以拆分开,所以我们现在只要求解出 P ( h l ∣ V ) P(h_l|V) P(hl​∣V)就可以求出 P ( H ∣ V ) P(H|V) P(H∣V)。假定我们现在要求的状态为 P ( h l = 1 ∣ V ) P(h_l = 1|V) P(hl​=1∣V),我们可以将上面的公式归结为下列公式:
    { P ( h l = 1 ∣ V ) = P ( h l = 1 , h − l , V ) P ( h l = 0 , h − l , V ) + P ( h l = 1 , h − l , V ) E ( V , H ) = − ( h l H l ( v ) + H ˉ l ( h − l , v ) ) \begin{cases} P(h_l = 1|V) = \frac{P(h_l = 1, h_{-l}, V)}{P(h_l = 0, h_{-l}, V) + P(h_l = 1, h_{-l}, V)} \\ E(V, H) = - {\big( {h_l H_l(v)} + {{\bar H}_l(h_{-l}, v)} \big)} \\ \end{cases} {P(hl​=1∣V)=P(hl​=0,h−l​,V)+P(hl​=1,h−l​,V)P(hl​=1,h−l​,V)​E(V,H)=−(hl​Hl​(v)+Hˉl​(h−l​,v))​

  5. 最后我们就可以将公式化简为:
    P ( h l = 1 ∣ V ) = P ( h l = 1 , h − l , V ) P ( h l = 0 , h − l , V ) + P ( h l = 1 , h − l , V ) = 1 Z exp ⁡ { 1 ⋅ H l ( v ) + H ˉ l ( h − l , v ) } 1 Z exp ⁡ { 0 ⋅ H l ( v ) + H ˉ l ( h − l , v ) } + 1 Z exp ⁡ { 1 ⋅ H l ( v ) + H ˉ l ( h − l , v ) } = exp ⁡ { H l ( v ) + H ˉ l ( h − l , v ) } exp ⁡ { H ˉ l ( h − l , v ) } + exp ⁡ { H l ( v ) + H ˉ l ( h − l , v ) } = 1 1 + exp ⁡ { − H l ( v ) } = s i g m o i d ( H l ( v ) ) = s i g m o i d ( ∑ j = 1 n W l j v j + β l ) \begin{align} P(h_l = 1|V) &= \frac{P(h_l = 1, h_{-l}, V)}{P(h_l = 0, h_{-l}, V) + P(h_l = 1, h_{-l}, V)} \\ &= \frac{\frac{1}{Z} \exp{\lbrace {1 \cdot H_l(v)} + {{\bar H}_l(h_{-l}, v)} \rbrace}}{\frac{1}{Z} \exp{\lbrace {0 \cdot H_l(v)} + {{\bar H}_l(h_{-l}, v)} \rbrace} + \frac{1}{Z} \exp{\lbrace {1 \cdot H_l(v)} + {{\bar H}_l(h_{-l}, v)} \rbrace}} \\ &= \frac{ \exp{\lbrace {H_l(v)} + {{\bar H}_l(h_{-l}, v)} \rbrace}}{ \exp{\lbrace {{\bar H}_l(h_{-l}, v)} \rbrace} + \exp{\lbrace {H_l(v)} + {{\bar H}_l(h_{-l}, v)} \rbrace}} \\ &= \frac{1}{ 1 + \exp{\lbrace - {H_l(v)} \rbrace} } = sigmoid(H_l(v)) = sigmoid(\sum_{j=1}^n {W_{lj} v_j} + \beta_l) \end{align} P(hl​=1∣V)​=P(hl​=0,h−l​,V)+P(hl​=1,h−l​,V)P(hl​=1,h−l​,V)​=Z1​exp{0⋅Hl​(v)+Hˉl​(h−l​,v)}+Z1​exp{1⋅Hl​(v)+Hˉl​(h−l​,v)}Z1​exp{1⋅Hl​(v)+Hˉl​(h−l​,v)}​=exp{Hˉl​(h−l​,v)}+exp{Hl​(v)+Hˉl​(h−l​,v)}exp{Hl​(v)+Hˉl​(h−l​,v)}​=1+exp{−Hl​(v)}1​=sigmoid(Hl​(v))=sigmoid(j=1∑n​Wlj​vj​+βl​)​​

21.4 Marginal问题

求边缘概率分布就是求 P ( V ) P(V) P(V)( P ( H ) P(H) P(H)也是,但求隐状态的边缘概率意义不大)。

照例先来整理一遍条件:

  • 数据:
    H = ( h 1 h 2 … h m ) h i ∈ { 0 , 1 } , V = ( v 1 v 2 … v m ) , p = m + n , W = [ w i j ] m × n = ( w 1 w 2 … w m ) H = \begin{pmatrix} h_1 \\ h_2 \\ \dots \\ h_m \end{pmatrix} h_i \in {\lbrace 0, 1 \rbrace} , \quad V = \begin{pmatrix} v_1 \\ v_2 \\ \dots \\ v_m \end{pmatrix}, \quad p=m+n, \quad W = {[w_{ij}]}_{m \times n} = \begin{pmatrix} w_1 \\ w_2 \\ \dots \\ w_m \end{pmatrix} H= ​h1​h2​…hm​​ ​hi​∈{0,1},V= ​v1​v2​…vm​​ ​,p=m+n,W=[wij​]m×n​= ​w1​w2​…wm​​ ​

  • 公式:
    { P ( V , H ) = 1 Z exp ⁡ { − E ( V , H ) } E ( V , H ) = − ( H T W V + α T V + β T H ) \begin{cases} P(V, H) = \frac{1}{Z} \exp{\lbrace - E(V, H) \rbrace} \\ E(V, H) = - {({H^T W V} + {\alpha^T V} + {\beta^T H})} \end{cases} {P(V,H)=Z1​exp{−E(V,H)}E(V,H)=−(HTWV+αTV+βTH)​

根据公式我们已知 P ( V , H ) P(V, H) P(V,H),这个时候我们要求 P ( V ) P(V) P(V),通过积分+公式代入自然就可以求出解:
P ( V ) = ∑ h P ( H , V ) = 1 Z ∑ h exp ⁡ { H T W V + α T V + β T H } = 1 Z exp ⁡ { α T V } ⋅ ∑ h 1 ⋯ ∑ h m exp ⁡ { H T W V + β T H } = 1 Z exp ⁡ { α T V } ⋅ ∑ h 1 ⋯ ∑ h m exp ⁡ { ∑ i = 1 m ( h i w i V + β i h i ) } = 1 Z exp ⁡ { α T V } ⋅ ∑ h 1 exp ⁡ { h 1 w 1 V + β i h 1 } ⋯ ∑ h m exp ⁡ { h m w m V + β i h m } = 1 Z exp ⁡ { α T V } ⋅ ( 1 + exp ⁡ { w 1 V + β i } ) … ( 1 + exp ⁡ { w m V + β i } ) = 1 Z exp ⁡ { α T V } ⋅ exp ⁡ { log ⁡ ( 1 + exp ⁡ { w 1 V + β i } ) } … exp ⁡ { log ⁡ ( 1 + exp ⁡ { w m V + β i } ) } = 1 Z exp ⁡ { α T V + ∑ i = 1 m log ⁡ ( 1 + exp ⁡ { w i V + β i } ) ⏟ softplus:  l o g ( 1 + e x ) } = 1 Z exp ⁡ { α T V + ∑ i = 1 m s o f t p l u s ( w i V + β i ) } \begin{align} P(V) &= \sum_{h} P(H, V) \\ &= \frac{1}{Z} \sum_h \exp{\lbrace {H^T W V} + {\alpha^T V} + {\beta^T H} \rbrace} \\ &= \frac{1}{Z} \exp{\lbrace {\alpha^T V} \rbrace} \cdot \sum_{h_1} \dots \sum_{h_m} \exp{\lbrace {H^T W V} + {\beta^T H} \rbrace} \\ &= \frac{1}{Z} \exp{\lbrace {\alpha^T V} \rbrace} \cdot \sum_{h_1} \dots \sum_{h_m} \exp{\lbrace \sum_{i=1}^m ({h_i w_i V} + {\beta_i h_i}) \rbrace} \\ &= \frac{1}{Z} \exp{\lbrace {\alpha^T V} \rbrace} \cdot \sum_{h_1} \exp{\lbrace {h_1 w_1 V} + {\beta_i h_1} \rbrace} \dots \sum_{h_m} \exp{\lbrace {h_m w_m V} + {\beta_i h_m} \rbrace} \\ &= \frac{1}{Z} \exp{\lbrace {\alpha^T V} \rbrace} \cdot (1 + \exp{\lbrace {w_1 V} + {\beta_i} \rbrace}) \dots (1 + \exp{\lbrace {w_m V} + {\beta_i} \rbrace}) \\ &= \frac{1}{Z} \exp{\lbrace {\alpha^T V} \rbrace} \cdot \exp{\lbrace \log {(1 + \exp{\lbrace {w_1 V} + {\beta_i} \rbrace})} \rbrace} \dots \exp{\lbrace \log {(1 + \exp{\lbrace {w_m V} + {\beta_i} \rbrace})} \rbrace} \\ &= \frac{1}{Z} \exp{\lbrace {\alpha^T V} + \underbrace{\sum_{i=1}^m \log {(1 + \exp{\lbrace {w_i V} + {\beta_i} \rbrace})}}_{\text{softplus: } log(1+e^x)} \rbrace} \\ &= \frac{1}{Z} \exp{\lbrace {\alpha^T V} + {\sum_{i=1}^m softplus({w_i V} + {\beta_i})} \rbrace} \\ \end{align} P(V)​=h∑​P(H,V)=Z1​h∑​exp{HTWV+αTV+βTH}=Z1​exp{αTV}⋅h1​∑​⋯hm​∑​exp{HTWV+βTH}=Z1​exp{αTV}⋅h1​∑​⋯hm​∑​exp{i=1∑m​(hi​wi​V+βi​hi​)}=Z1​exp{αTV}⋅h1​∑​exp{h1​w1​V+βi​h1​}⋯hm​∑​exp{hm​wm​V+βi​hm​}=Z1​exp{αTV}⋅(1+exp{w1​V+βi​})…(1+exp{wm​V+βi​})=Z1​exp{αTV}⋅exp{log(1+exp{w1​V+βi​})}…exp{log(1+exp{wm​V+βi​})}=Z1​exp{αTV+softplus: log(1+ex) i=1∑m​log(1+exp{wi​V+βi​})​​}=Z1​exp{αTV+i=1∑m​softplus(wi​V+βi​)}​​

21 RBM(Restricted Boltzmann Machine)——受限玻尔兹曼机相关推荐

  1. 受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)

    这篇写的主要是翻译网上一篇关于受限玻尔兹曼机的tutorial,看了那篇博文之后感觉算法方面讲的很清楚,自己收获很大,这里写下来作为学习之用. 原文网址为:http://imonad.com/rbm/ ...

  2. 受限玻尔兹曼机(Restricted Boltzmann Machine)分析

    1.什么是BM? BM是由Hinton和Sejnowski提出的一种随机递归神经网络,可以看做是一种随机生成的Hopfield网络,是能够通过学习数据的固有内在表示解决困难学习问题的最早的人工神经网络 ...

  3. tensorflow玻尔兹曼机_受限玻尔兹曼机(Restricted Boltzmann Machine)

    受限玻尔兹曼机(Restricted Boltzmann Machine) 1. 生成模型 2. 参数学习 3. 对比散度学习算法 由于受限玻尔兹曼机的特殊结构,因此可以使用一种比吉布斯采样更有效 的 ...

  4. 【零散知识】受限波兹曼机(restricted Boltzmann machine,RBM)和深度置信网络(deep belief network,DBN)

    前言: { 最近一直在想要不要去线下的英语学习机构学英语 (本人的英语口语能力实在是低).如果我想完成今年的年度计划,那么今年就没时间学英语了. 这次的内容是之前落下的深度置信网络(deep beli ...

  5. Restricted Boltzmann Machine(限制玻尔兹曼机 RBM)

    RBM原理: 玻尔兹曼机最初是作为一种广义的"联结主义"引入,用来学习向量上的任意概率分布.联结主义(connectionism)的中心思想是,当网络将大量简单计算单元连接在一起时 ...

  6. 受限Boltzmann机(Restricted Boltzmann Machine)

    起源:Boltzmann神经网络 Boltzmann神经网络的结构是由Hopfield递归神经网络改良过来的,Hopfield中引入了统计物理学的能量函数的概念. 即,cost函数由统计物理学的能量函 ...

  7. Restricted Boltzmann Machine (RBM)限制波尔兹曼机

    假设有一个二部图,每一层的节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值变量节点(只能取0或者1值),同时假设全概率分布p(v,h)满足Bolt ...

  8. 28 玻尔兹曼机 Boltzmann Machine

    玻尔兹曼机(Boltzmann Machine)在"受限玻尔兹曼机"那一章就有了简单的描述.在那一章我们就较为详细的分析过了,由于Boltzmann machine 中的依赖关系过 ...

  9. 受限玻尔兹曼机(RBM)

    受限玻尔兹曼机(RBM) 一起读懂传说中的经典:受限玻尔兹曼机 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650731098 ...

最新文章

  1. Windows平台下程序打包流程
  2. Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别
  3. ADAS越来越热,这家公司为何能俾睨群雄
  4. [html] 如何在页面打开PDF文件?
  5. php压缩zip文件类
  6. excel checkbox mysql_ajax – checkbox – 使用jquery和mysql选中或取消选中
  7. php curl get post请求
  8. 开关电源设计书籍推荐
  9. 凸优化非系统学习之笔记5:内点法
  10. verilog语法错误
  11. python UI自动化自动关闭浏览器学习记录
  12. ReportingService报表入门
  13. 滤波电容/去耦电容,怎么选型?
  14. 外星人大战---------------游戏开发(二)
  15. 【Centos】EFAK(kafka-eagle)对ZK、Kafka可视化管理工具容器化安装与配置
  16. Pintia(拼题A)刷题插件 on VS Code
  17. 《大学四年》——知乎 读书笔记
  18. CSS样式表的引入方式
  19. Ubuntu20.04如何新建.txt文件
  20. magicui3.1系统能升到鸿蒙,来了!Magic UI3.1系统更新体验,你的手机在里面吗?

热门文章

  1. 点云,联合标定与信息融合
  2. 黄仁宇走了,柏杨也走了
  3. F280049C FLASH编程报错Break at address “0x3fbd92“ with no debug information available解决方案
  4. 单片机课设基于51单片机的波形发生器(公开资源)(四种波形)(同时输出两种波形)
  5. WEB应用防火墙与数据库应用防火墙有什么区别
  6. 状态错误CS0234命名空间“Windows”中不存在类型或命名空间名“Management”(是否缺少程序集引用?)
  7. 蓝牙广播“嗅探”模式应用
  8. email搭配smtplib编辑发送邮件 看了之后邮件随便发
  9. Linux线程互斥学习笔记--详细分析
  10. Shell脚本中的:=是什么意思