Hinton 论文系列《A fast learning algorithm for deep belief nets》
1 简介
本文根据2006年Hinton等人写的《A fast learning algorithm for deep belief nets》翻译总结。
学习一个紧密连接、有向的、有很多隐藏层的信念网络是很困难的,因为在给定一个数据向量下,很难推断隐藏活动下的条件分布。
本文中,我们显示了是有可能学习一个深度、紧密相连的信念网络,一次学习一层。进行如此学习方式的一种是假定当学习低层时,较高的层不存在;但这与简单的因子化相似(替换难处理的后验分布)不相容。为了使这些相似起作用,我们需要真的后验尽可能逼近因子化。所以不是忽略较高层,而是假定他们存在,只是有捆绑的权重,他们满足互补先验分布(Complementary Prior),以使真后验分布可以因子化。这就相当于拥有了一个无向模型,可以使用对比散度(contrastive divergence)有效的学习。
本文没有基础知识读起来很费劲,先暂时翻译几个关键词:explains away、Complementary Prior等。
2 互补先验分布(Complementary Prior)
2.1 explains away
explains away,英文意思辩解、搪塞,我觉得在这里翻译翻译成“解释不清楚”更好些。
如下图,一个简单的逻辑信念网络,当我们预测house jumps时,有两个独立的、罕见的原因,他们是反相关的。Earth quake上的-10表示,其有e10倍的可能性是关闭状态,而e(-10)倍的概率是打开状态。如果Earth quake节点是打开状态、truck 节点是关闭状态,jump节点的整个输入就会是0(+20,-20求和等于0),即jump节点各有50%概率是打开状态还是关闭状态。jump的概率高于e^(-20)的概率(隐藏状态(Earth quake、truck)的任何一个都没有开启),这种情况容易被观察解释。也无需将两个隐藏状态都打开来解释jump的现象,因为两个都打开的概率是e(-10)*e(-10)=e^(-20)。当Earth quake节点是打开状态时,对于truck节点就存在explains away,即解释不清楚truck节点的价值,它到底起没起作用。
2.2 Complementary Prior
explains away现象的存在使有向信念网络预测困难。
如果一个逻辑信念网络只有一层,基于隐藏变量的先验分布是可以因子化的,因为他们的二值状态可以被选择是独立的。后验分布中的非独立来自于数据中的可能项。我们可以通过如下方法在第一隐藏层消除explains away:使用一个额外的隐藏层来创建一个“complementary” prior,其与可能项中的相关性正好相反。然后当可能项与先验相乘时,我们得到的后验就可以使因子化的。Complementary prior的存在不会太明显,如下图显示的无限逻辑信念网络,带着捆绑权重,prior在每一个隐藏层中都会被Complementary。使用捆绑权重来构建“Complementary prior”就像一个骗局,将有向模型等价到无向模型。如我们将要展示的那样,这就产生了一个新颖的、非常有效的学习算法,其逐渐将更高层的权重与当前层的权重解绑。
3 Restricted Boltzmann machines and contrastive divergence learning
RBM和无限有向网络(带有tied 权重)是等价的。
在RBM中contrastive divergence learning实际上足够有效的。
Hinton 论文系列《A fast learning algorithm for deep belief nets》相关推荐
- DBN训练学习-A fast Learning algorithm for deep belief nets
转载自:http://blog.sciencenet.cn/blog-110554-889016.html DBN的学习一般都是从Hinton的论文A Fast Learning Algorithm ...
- 玻尔兹曼机的学习算法--Hinton论文系列《A learning algorithm for Boltzmann machines》
1 简介 本文根据1985年Hinton等人写的<A learning algorithm for Boltzmann machines>翻译总结的.即玻尔兹曼机的学习算法. 连接主义认为 ...
- 转【面向代码】学习 Deep Learning(二)Deep Belief Nets(DBNs)
[面向代码]学习 Deep Learning(二)Deep Belief Nets(DBNs) http://blog.csdn.net/dark_scope/article/details/9447 ...
- MIML系列(一):Fast Multi-Instance Multi-Label Learning 快速多示例多标签学习
MIML系列(一):Fast Multi-Instance Multi-Label Learning 快速多示例多标签学习 目前的研究方向是基于MIML的,然而网上关于MIML的论文讲解有点少,因 ...
- Hinton神经网络公开课编程练习1 The perceptron learning algorithm
为什么80%的码农都做不了架构师?>>> 本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/ml/the-perceptron-learning ...
- 《A fast parallel algorithm for thinning digital patterns》论文算法python代码实现
论文地址:A fast parallel algorithm for thinning digital patterns 代码: def thinImage(src, maxIterations=-1 ...
- FastGCN: fast learning with graph convolutional networks via importance sampling 论文详解 ICLR 2018
文章目录 1 简单介绍 概率测度 probability measure 自助法 bootstrapping GCN面临的两个挑战 解决思路(创新点) 2 相关工作 3 通过采样进行训练和推理 定理1 ...
- 【论文笔记】A Meta-Reinforcement Learning Algorithm for Causal Discovery
目录 Abstract 1 MOTIVATION AND CONTRIBUTION 2 PRELIMINARIES AND NOTATION 3 WORKING ASSUMPTIONS 4 REINF ...
- 论文解读:《Learning Linear Transformations for Fast Image and Video Style Transfer》,CVPR 2019
论文解读:<Learning Linear Transformations for Fast Image and Video Style Transfer>,CVPR 2019 0. 论文 ...
- 【论文总结】Incremental Learning of Object Detectors without Catastrophic Forgetting(附翻译)
Incremental Learning of Object Detectors without Catastrophic Forgetting 无灾难性遗忘的增量学习目标检测器 论文地址:https ...
最新文章
- 2022-2028年中国充电桩行业深度调研及投资前景预测报告(上下卷)
- Spring-bean的作用域
- CF1142C U2
- bzoj2301: [HAOI2011]Problem b懵逼乌斯反演
- view controller lifecycle discussion - beforeRendering
- jmeter中重定向多个正则表达式_2020年jmeter技术实战续集,最新技术全栈,值得收藏
- mysqldump 的常用参数。
- 一步步学习EF Core(1.DBFirst)
- Counting Triangles
- What means the error-message 'java.lang.OutOfMemoryError: GC overhead limit exceeded' in Java?
- CCIE理论-第二篇-SDN-FabricPath技术
- 飞秋本机如何与虚拟机传送文件_某度扩容之虚拟机
- YouTube怎么判断影片内含侵权内容? 解析Content ID内容识别系统的原理及功能
- python爬虫淘宝评论图片_淘宝上的图片是怎么被爬取的
- (一) CPU 性能测试 (压力)
- 简约竞聘个人简历自我介绍PPT模板
- jquery获取所有选中的checkbook
- java做度量衡换算器,磅换算计算器(公斤和磅在线换算器)
- 社区10款年度优秀插件框架盘点!
- 为什么国内APP热衷于皮肤特效