Hinton 论文系列《A fast learning algorithm for deep belief nets》

1 简介

本文根据2006年Hinton等人写的《A fast learning algorithm for deep belief nets》翻译总结。

学习一个紧密连接、有向的、有很多隐藏层的信念网络是很困难的，因为在给定一个数据向量下，很难推断隐藏活动下的条件分布。

本文中，我们显示了是有可能学习一个深度、紧密相连的信念网络，一次学习一层。进行如此学习方式的一种是假定当学习低层时，较高的层不存在；但这与简单的因子化相似（替换难处理的后验分布）不相容。为了使这些相似起作用，我们需要真的后验尽可能逼近因子化。所以不是忽略较高层，而是假定他们存在，只是有捆绑的权重，他们满足互补先验分布（Complementary Prior），以使真后验分布可以因子化。这就相当于拥有了一个无向模型，可以使用对比散度（contrastive divergence）有效的学习。

本文没有基础知识读起来很费劲，先暂时翻译几个关键词：explains away、Complementary Prior等。

2 互补先验分布（Complementary Prior）

2.1 explains away

explains away，英文意思辩解、搪塞，我觉得在这里翻译翻译成“解释不清楚”更好些。

如下图，一个简单的逻辑信念网络，当我们预测house jumps时，有两个独立的、罕见的原因，他们是反相关的。Earth quake上的-10表示，其有e^{10倍的可能性是关闭状态，而e}(-10)倍的概率是打开状态。如果Earth quake节点是打开状态、truck 节点是关闭状态，jump节点的整个输入就会是0（+20，-20求和等于0），即jump节点各有50%概率是打开状态还是关闭状态。jump的概率高于e^(-20)的概率（隐藏状态（Earth quake、truck）的任何一个都没有开启），这种情况容易被观察解释。也无需将两个隐藏状态都打开来解释jump的现象，因为两个都打开的概率是e^(-10)*e(-10)=e^(-20)。当Earth quake节点是打开状态时，对于truck节点就存在explains away，即解释不清楚truck节点的价值，它到底起没起作用。

2.2 Complementary Prior

explains away现象的存在使有向信念网络预测困难。

如果一个逻辑信念网络只有一层，基于隐藏变量的先验分布是可以因子化的，因为他们的二值状态可以被选择是独立的。后验分布中的非独立来自于数据中的可能项。我们可以通过如下方法在第一隐藏层消除explains away：使用一个额外的隐藏层来创建一个“complementary” prior，其与可能项中的相关性正好相反。然后当可能项与先验相乘时，我们得到的后验就可以使因子化的。Complementary prior的存在不会太明显，如下图显示的无限逻辑信念网络，带着捆绑权重，prior在每一个隐藏层中都会被Complementary。使用捆绑权重来构建“Complementary prior”就像一个骗局，将有向模型等价到无向模型。如我们将要展示的那样，这就产生了一个新颖的、非常有效的学习算法，其逐渐将更高层的权重与当前层的权重解绑。

3 Restricted Boltzmann machines and contrastive divergence learning

RBM和无限有向网络（带有tied 权重）是等价的。

在RBM中contrastive divergence learning实际上足够有效的。