文献阅读:Improving neural networks by preventing co-adaptation of feature detectors

————通过防止特征检测器的共适应以改进神经网络

G. E. Hinton∗, N. Srivastava, A. Krizhevsky, I. Sutskever and R. R. Salakhutdinov Department of Computer Science, University of Toronto, 6 King’s College Rd, Toronto, Ontario M5S 3G4, Canada

当一个深度反向传播神经网络在小的训练集上训练时,通常会在所提供的测试数据项中表现得很差。这种现象被称之为“过拟合”,这种“过拟合”可以通过在每个训练案例上随机省略一半的特征检测器而大大减小。从而阻止了复杂的共适应,其中特征检测器只在其他几个特定的特征检测器的环境中起到作用。相反地,每一个神经元学习如何去检测特征的过程,通常有助于得出正确答案,因为它必须在相结合着的且庞大的内部环境中去进行操作。随机“dropout”在许多基准测试以及为语音、目标识别设置新记录等方面都给予了成效有佳的改进。

现在有一正反馈,人工神经网络使用其输入和输出之间的非线性“隐藏”单元层。通过调整这些隐藏单元之间的传入连接上的权重,它可以学习到在给定输入向量时预测出正确输出的特征检测器。如果输入和输出之间的关系是复杂的,并且网络中有足够的隐藏单元用以准确建模,那么通常会有许多不同的权重设置用以完美地为训练集建模,尤其是如果只有有限数量的标记训练数据的情况。每个权重向量都会对被搁置的测试数据做出不同的预测,并且几乎所有的预测在测试数据上的都比在训练数据上的表现糟糕,这是因为特征检测器已经被调谐,在训练集上可以很好地合作,而在测试集上则不会。

可以通过使用“dropout”以减小过拟合,从而防止在训练集上的复杂的共适应。在每个训练案例的每个呈现上,每个隐藏单元被随机地从网络中以0.5的概率省略,也就是说,隐藏单元不能依赖于其他存在着的隐藏单元。另一种理解dropout过程的效率化方式是,用神经网络进行模型平均。一种良好的减少训练集上的误差的方式是平均由大量不同网络产生的预测。这样做的标准方式是训练大量单独的网络,然后将每个网络应用于测试数据,但在训练和测试期间,这在计算上的操作无疑是昂贵的。随机dropout使在合理期限内训练庞大且不同的网络成为可能。几乎可以肯定的是,每个训练用例的每个表示都对应一个不同的网络,但是这些网络对于存在着的隐藏单元具有相同的权重。

我们使用标准的随机梯度下降用以训练dropout神经网络在训练案例上的小批量集合,但同时也修改了用来防止权重增长过大的惩罚项。不对整个权重向量的平方长(即L2范数)施加惩罚项,相反地,对每个单独的隐藏单元的传入权重向量,我们在它们的L2范数上设置一个上限。如果一个权重更新的过程违反了这个约束,我们将隐藏单元的权重通过分配重新进行正则化。无论提议的权重更新有多大,使用约束来代替惩罚的这种方式,可以阻止权重增长过大。这样就使让一个非常大的,且在学习过程中会衰减的学习率作为训练的开始成为可能,相较于从小的权重开始且使用学习率较小的方式,这种方式对权重空间的搜索更为彻底。

在测试时,我们使用包含所有隐藏单元的“均值网络”,但将它们的输出权重减半,用以补偿两倍于激活的实际情况。在实践中,这与在大量dropout网络上的表现非常相似。在具有N个单元的单个隐藏层和用于计算类标签概率的“softmax”输出层中,使用均值网络可完全等同于通过所有2N个可能的网络预测的标签上取概率分布的集合均值。假设dropout网络并非都做出相同的预测,则均值网络的预测值保证给出正确的应答分配,比单独且多个dropout网络分配更高的log概率。同样地,对于线性输出单元的回归,均值网络的平方误差总是优于dropout的平方误差的均值。

最初我们探索了dropout使用MNIST的有效性,(MINIST:一个被广泛使用的基准机器学习算法)。它包含了60,000张28*28大小的单独的手写数字图片以及10,000张测试图片。 通过用变换后的图像增强训练数据,或将有关空间转换的知识连接到卷积神经网络,或使用生成的预训练,不带标签地,从训练图片中提取有用的特征,测试集的性能可大大提高。在不使用任何这些技巧的情况下,标准前馈神经网络的最佳表现结果是在测试集上产生160个错误。在每个隐藏单元的输入权重的单独的L2约束上,可通过使用50%的dropout减少到130个左右的错误,并通过减少随机20%的像素值进一步将错误减少到大约110个。(figure 1)

[Fig. 1: 对于各种神经网络结构,MINST测试集上的错误率使用反向转播进行训练,对所有隐藏层使用50%的dropout。较低的线集也对输入层进行20%的dropout。使用反向传播而不是预训练或权重共享或增强训练集,最佳的先前分布的结果通过图中的水平线显示。]

Dropout也可以与生成的预训练相结合,但在这种情况下,我们需使用小的学习率,且没有权重限制,以避免失去通过与预训练发现的特征检测器。当公开的,且预先训练的深层信念网络使用被很好调整过的标准反向传播时,表现出118个错误。若将反向转播改进为对隐藏单元50%的dropout,错误会降至92个。 当URL上的公开可用代码被用于预训练5次玻尔兹曼机器时,当使用有调整的标准反向转播的情况下,未控制的网络得到103,97,94,93和88个错误;而使用对隐藏单元进行50%dropout时,得到83,79,78,78和77个错误。79个错误的均值是不使用先验知识或强化训练集的方法的记录。

然后,我们将dropout应用于TIMIT,这是一个词汇量很小的且被广泛使用的识别纯净语音的基准。使用HMMs(hidden Markov models )的语音识别系统用以处理时间变异性,并且它们需要一个声音模型,通过从声音输入中提取符合每个隐藏马尔可夫模型的每个可能状态,来决定一个系数框架有多好。最近,深层、预训练、前馈的神经网络,在HMM区域将短帧序列映射成概率分布,对于TIMIT和各种更显示的大型词汇任务上都优于传统的高斯混合模型。

Figure 2显示了当某个窗口的中心框架被分为属于HMM区域的情况下,神经网络给予最高的概率,此时在TIMIT基准核心测试集上的框架分类错误率。网络的输入是21个相邻的框架,每个框架提前10秒。神经网络有4层每层包含4000个单元的全连接隐藏层,以及185个“softmax”输出单元,随后合并到用于基准的39个不同类中。Dropout 50%的隐藏单元显著地提高了各种不同网络体系结构的分类。为了得到框架识别率,神经网络的类概率将每个框架的输出给一个知道HMM状态之间的转换概率的解码器,并运行Viterbi算法来推断HMM状态的单个最佳序列。 如果没有dropout,识别率为22.7%,有dropout,则提高到19.7%,这是一个记录的方法,不使用任何信息的发言者身份。


[Fig.2: 在TIMIT基准的核心测试集上的框架分类错误率;不同网络体系结构的标准网络和dropout网络的比较;通过dropout50%的隐藏单元和20%的输入单元来提高分类准确。]

CIFAR-10是对象识别的基准任务,它使用32x32下采样的10个不同对象类的彩色图像,这些图像是通过搜索网络查找类名(例如狗)或其子类(例如金毛猎犬)所得到,通过产生50,000幅训练图像和10,000幅测试图像人工地给予标签,其中有一单一的主导对象,可以合理地给出类名。(Figure 3)在不使用转换数据的情况下,测试集上表现得最好的错误率为18.5% 。而我们使用了一个包含三个卷积隐含层和三个反应出局部卷积单元池中的最大激活程度的“最大池化”层,由它们交织组成的的神经网络将错误率优化到了16.6%。在这六层之后接着的是一个本地连接层,在最后一个隐藏层中使用dropout使得错误率又降为15.6%。


[Fig.3:10个在CIFAR-10测试集中鸟类的举例,说明了鸟类的品种,视点,灯光以及背景的类型。除了最后两个例子外,神经网络正确的判别。]

ImageNet是一个有着数以千计的对象的高分辨率图像组成的,极具挑战性的对象识别数集。2010年,1000个类的一个子集(每个类大约有1000个子集),是一个对象识别竞争的基础,其中获胜的条目,实际上是6个单独的模型,在测试集上达到了47.2%的错误率,且该数据集上当前最新的错误率结果已经降至45.7%。我们通过使用具有五个卷积隐藏层的单个神经网络,与“最大池化”层交织,然后接着两个全局连通层和最后的一个1000路的softmax层,取得了48.6%的误差的可比性表现。所有层的每个隐藏单元的传入权重都有L2权重约束,在第六个隐藏层使用50%的dropout可进一步将这个错误率降至42.4%。

[Fig.4:一些带有最好的5个标签的概率的ImageNet测试用例。许多前五名的标签是非常可信的。]

对于语音识别数据集和对象识别数据集,在设计网络体系时做出大量的决策是非常有必要的,我们通过持有一个单独的用以评估大量不同结构体系的表现的验证集来做出这些决定,然后我们使用在验证集上表现最好的dropout体系结构来评估实际测试集上的dropout表现。

Reuters数据集包含已经被标为类层次结构的文档,我们创建了训练集和测试集,每个都包含着来自50个互斥类的201,369个文档,每个文档由2000个普通的non-stop单词的计数向量表示,每个计数C被转换成log(1+C)。一个具有两个拥有2000个隐藏单元的完全连接层的前馈神经网络,在测试集上经过反向传播训练,得到的误差为31.05%,进一步通过使用50%的dropout使之降至29.62%。

Dropout比起贝叶斯模型更容易实现给定训练数据的后验概率来平均每个模型的权重,对于复杂的模型类别,如前馈神经网络,贝叶斯方法通常使用马尔可夫链式蒙特卡罗方法(Markov chain Monte Carlo method)来实现从后验分布中采样模型。相比之下,概率为0.5的dropout假设所有模型最终都会在组合中得到同等的重视,但共享权重的学习方式重视到了这一点。在测试时,每个单元的dropout决策是独立的,这使得通过在均值网络中使用单个传播去指数化地近似许多dropout网络的综合建议变得更加简单。这比平均许多单独的模型的预测结果更有效率。

一种常见且极端的dropout情况是“朴素贝叶斯”,其中每个输入特征分别训练用以预测类标签,然后将在测试时,将所有特征的预测分布相乘。在训练数据的数目很少时,这通常比在每个输入特征在所有其他特征的背景下很好地工作的逻辑分类进行得更好。

最后,dropout和最近关于性别在进化中的作用理论之间有一个有趣的相似之处。对于混合性理论,一种可能的解释时,性分解了一组共适应基因,这意味着通过使用一组大量的共适应基因来实现一个函数,并不像实现相同的函数那么健壮,也许不是最优的,即在多种替代方式中,每一种只使用少量的共适应基因,这使得进化可以避免走向死胡同,在这种死胡同中,适应性的改善需要对大量的共适应基因进行协调变化。同时,这也会降低在适应一个现象中大幅度减少环境中的一些小变化的现象的概率,在机器学习领域中这种现象被称为“overfitting”。

References and Notes

  1. D. E. Rumelhart, G. E. Hinton, R. J. Williams, Nature 323, 533 (1986).
  2. G. E. Hinton, Neural Computation 14, 1771 (2002).
  3. L. M. G. D. C. Ciresan, U. Meier, J. Schmidhuber, Neural Computation 22, 3207 (2010).
  4. Y. B. Y. Lecun, L. Bottou, P. Haffner, Proceedings of the IEEE 86, 2278 (1998).
  5. G. E. Hinton, R. Salakhutdinov, Science 313, 504 (2006).
  6. A. Mohamed, G. Dahl, G. Hinton, IEEE Transactions on Audio, Speech, and Language
    Processing, 20, 14 (2012).
  7. G. Dahl, D. Yu, L. Deng, A. Acero, IEEE Transactions on Audio, Speech, and Language
    Processing, 20, 30 (2012).
  8. N. Jaitly, P. Nguyen, A. Senior, V. Vanhoucke, An Application OF Pretrained Deep Neural Networks To Large Vocabulary Conversational Speech Recognition, Tech. Rep. 001,
    Department of Computer Science, University of Toronto (2012).
  9. A. Krizhevsky, Learning multiple layers of features from tiny images, Tech. Rep. 001, Department of Computer Science, University of Toronto (2009).
  10. A. Coates, A. Y. Ng, ICML (2011), pp. 921–928.
  11. J. Deng, et al., CVPR09 (2009).
  12. J. Sanchez, F. Perronnin, CVPR11 (2011).
  13. S. J. N. R. A. Jacobs, M. I. Jordan, G. E. Hinton, Neural Computation 3, 79 (1991).
  14. R. M. Neal, Bayesian Learning for Neural Networks, Lecture Notes in Statistics No. 118
    (Springer-Verlag, New York, 1996).
  15. L. Breiman, Machine Learning 24, 123 (1996).
  16. L. Breiman, Machine Learning 45, 5 (2001).
  17. J. D. A. Livnat, C. Papadimitriou, M. W. Feldman, PNAS 105, 19803 (2008).
  18. R. R. Salakhutdinov, G. E. Hinton, Artificial Intelligence and Statistics (2009).
  19. D. D. Lewis, T. G. R. Y. Yang, Journal of Machine Learning 5, 361 (2004).
  20. We thank N. Jaitly for help with TIMIT, H. Larochelle, R. Neal, K. Swersky and C.K.I.
    Williams for helpful discussions, and NSERC, Google and Microsoft Research for funding.
    GEH and RRS are members of the Canadian Institute for Advanced Research.

文献阅读:Improving neural networks by preventing co-adaptation of feature detectors相关推荐

  1. Improving neural networks by preventing co-adaptation of feature detectors

    一.文献名字和作者     Improving neural networks by preventing co-adaptation of feature detectors, G. E. Hint ...

  2. 经典DL论文研读(part3)--Improving neural networks by preventing co-adaptation of feature detectors

    学习笔记,仅供参考,有错必纠 文章目录 Improving neural networks by preventing co-adaptation of feature detectors Abstr ...

  3. 论文笔记 | Improving neural networks by preventing co-adaptation of feature detectors

    Authors G. E. Hinton , N. Srivastava, A. Krizhevsky, I. Sutskever and R. R. Salakhutdinov Hinton Abs ...

  4. 论文阅读(Improving neural networks by preventing co-adaptation of feature detectors )

    显然看不懂英文然后出于各种原因最终被迫搜索了翻译版本,如有错误欢迎指出 介绍主体: DropOut 目的: 对战过拟合的基础上提升速度和学习能力(力速双A✔) 思路: 通过在每个训练案例上随机省略一般 ...

  5. 【论文笔记】Improving neural networks by preventing co-adaptation of feature detectors

    多伦多大学计算机科学系12年的一篇文章,大量实验讨论了dropout的效果和直观解释了为什么dropout这么强大. 为什么强大?主要是参数独立训练,大量网络共享参数但是相当于独立训练出来的,参数之间 ...

  6. 【精读AI论文】dropout----(Improving neural networks by preventing co-adaptation of feature detectors)

    文章目录 前言 第一页: 第一段: 第二段: 第二页 第一段 第二段 第三段 第3-6页 思考与总结 dropout丢弃的是权重还是输出? dropout的正确性以及随机丢弃对结果的影响? dropo ...

  7. 阅读Improving Convolutional Networks with Self-Calibrated Convolutions

    本论文在研究CNN性能上不在关注模型结构,而是在考虑改进CNN的基本卷积特征变换过程,即自校准卷积. 1.结构 给定一组形状为(C,C,kh,kw)的滤波器组K,其中kh和kw分别是空间高度和宽度,首 ...

  8. [翻译] 神经网络与深度学习 第三章 提升神经网络学习的效果 - Chapter 3 Improving the way neural networks learn

    目录: 首页 译序 关于本书 关于习题和难题 第一章 利用神经网络识别手写数字 第二章 反向传播算法是如何工作的 > 第三章 提升神经网络学习的效果 第四章 可视化地证明神经网络可以计算任何函数 ...

  9. 崇志宏 【转载】深度学文献阅读路径图---东南大学

    深度学习文献众多,技术发展迅速,有系统地阅读文献是掌握深度学习本质的基本方式,如此认真整理的文献不多见,转发给大家共享! 东南大学 崇志宏 Deep Learning Papers Reading R ...

最新文章

  1. C++ CORE DUMP gdb 调试
  2. flask学习笔记之blueprint
  3. 玩转MaxCompute studio SQL编辑器
  4. css怎么使元素绝对定位有过度效果_小猿圈web前端讲解div+css绝对定位和相对定位...
  5. 为什么这个SQL Server DBA学习PowerShell--SQL任务
  6. web页面在线编辑功能
  7. 浅谈C#取消令牌CancellationTokenSource
  8. python xpath循环_Python爬虫 爬取北京二手房数据
  9. java对象添加字段_99.9%的Java程序员都说不清的问题:JVM中的对象内存布局?
  10. 【语音合成】基于matlab重叠存储法的信号分帧与还原【含Matlab源码 567期】
  11. eclipse导入javaWeb项目
  12. psp能装安卓软件吗_PSP模拟器下载_安卓PSP模拟器下载「ppsspp模拟器」-太平洋下载中心...
  13. ADS20XX完全安装(任意盘)、卸载指南
  14. 数据结构算法之关键路径
  15. 一文带你了解身份证实名认证类api接口
  16. 微信支付异常故障记录
  17. 微信小程序新版本提示更新
  18. 5月6阴阳师服务器维护,阴阳师正式服5月6日更新公告
  19. 根据地理位置获取经纬度
  20. 吴恩达-DeepLearning.ai-05 序列模型(一)

热门文章

  1. dayjs汉化,dayjs中文,dayjs转中文,dayjs显示中文
  2. 时序数据到底是什么,为什么我们需要时序数据库?
  3. 草图大师素材是如何快速导入到模型中的呢?草图溜溜来替你解答
  4. pdf文件过大,如何缩小的操作教程
  5. 知网文献使用EndNote X9在word插入参考文献
  6. 为何C语言如此强大?到底可以做什么?
  7. VRP介绍以及AC初始化配置介绍
  8. 罗马数字 java_java将罗马数字转换成整数算法详解-Fun言
  9. 项目质量管理与太极图
  10. 矩阵分析(1)--一些基本概念