本来是打算搜搜RNN或者LSTM的原文，结果arxiv上没搜到（求求，帮帮），然后就搜到知乎上一个回答：

心想完蛋，年份跨度比较远的论文读起来会不会很费劲啊。结果搜到LSTM的原论文了（论文链接：https://www.bioinf.jku.at/publications/older/2604.pdf），一看，30页还有好多看不懂的公式与图，就突发感慨：啊，有些知识还是看看二创的比较好，LSTM这种还是果断放弃吧，之后有时间找找比较好的博客之类的看，http://colah.github.io/posts/2015-08-Understanding-LSTMs/这个感觉就不错。

废话说多了。今天看的这个是《Recurrent Neural Network Regularization》，加上参考文献一共就8页，讲的是RNN及其变体怎么进行正则化以防止过拟合的方法。

论文地址：[1409.2329v5] Recurrent Neural Network Regularization (arxiv.org)

以下是正文：

这篇文章的主旨是：dropout最好只用在从当前时间步的输入到输出的连接上，而不应用在递归连接上（即与隐藏状态或者历史信息相关的计算）。

然后，恭喜你已经看完了整个文章。

引言

正则化最常用的一种方法是dropout，但是RNNs却不怎么适合应用dropout（可能是实验的结果），也是因此，RNNs只能使用小网络以避免过拟合，这很大程度上限制了RNN的能力。

这篇文章就是讲作者如何改造应用dropout的方式以帮助RNN从dropout中受益。

正则化LSTM

作者首先贴心地带着我复习了一下RNN和LSTM的基础知识，之后开门见山地讲这篇文章的主要思想：dropout只应用在非递归连接上，用图展示就是：

虚线是应用dropout的连接，实线是不应用dropout的连接。作者下面给出的公式表明，dropout进行mask的对象是每一层的输入向量（有的论文里进行mask的对象是权值矩阵）：

为什么这样呢？我理解作者的意思是：这样做，dropout引入的不确定性不会伤害到整个网络记住过去信息的能力，即关于记忆的部分不会被引入的不确定性影响。换句话说，可以看到，每一个过往的输入与当前的输出的连接都经过了L+1次dropout（L是层数），这个次数是固定的，且不随时间差的改变而改变。而标准的dropout扰乱了递归连接，使得LSTM更难学习存储长期信息。

实验

作者在四种领域里进行实验：language modeling、speech recognition、machine translation、image caption generation。结果的数据就不多赘述了，不过我对作者进行的实验有一些怀疑，因为作者设置的大LSTM与小LSTM的差别只是每一层的单元数不同，但是我想，正常的第一反应不应该是增加层数吗，毕竟相比更宽，更深才是深度学习的主流趋势吧。而且作者进行对比的实验的其他参数设置等没有做到对照实验要求的一致，不太明白为什么。

不过我看作者实验过程提到一句，大概意思是第一个minibatch的初始隐藏状态被初始化为0，此后的minibatch的初始隐藏状态都以上一个minibatch的最后一步的隐藏状态作为初始化。我没想过还能这样玩，学到了，以后可以试试。

总结

哦瓦力马苏，不写啦。

没啥不懂的地方，这篇文章读得特别顺，45分钟就读完了。

感谢作者！

【论文阅读】Recurrent Neural Network Regularization相关推荐

读论文《Recurrent neural network based language model 》
读论文<Recurrent neural network based language model > 标签(空格分隔): 论文 introduce 本文将循环神经网络RNN引入了神经网络 ...
Deep Learning 论文笔记 (2): Neural network regularization via robust weight factorization
under review as a conference paper at ICLR 2015. Motivation: 本文提出来一种regularization的方法,叫做FaMe (Factor ...
RNN(recurrent neural network regularization)
论文:https://arxiv.org/pdf/1409.2329.pdf 摘要: 论文为RNN中的LSTM单元提出一个简单的调整技巧,dropout在调整神经网络中取得非常大的成功,但是在RNN( ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...
Recurrent Neural Network系列2--利用Python，Theano实现RNN
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读
<Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling& ...
论文笔记及Pytorch复现：A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction
论文地址 GitHub代码地址论文题目为<基于双阶段注意力机制的循环神经网络>,文章本质上还是基于Seq2Seq的模型,结合了注意力机制实现的时间序列的预测方法,文章的一大亮点是:不仅在 ...
Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling论文笔记
文章目录摘要方法 Encoder-Decoder Model with Aligned Inputs Attention-Based RNN Model 实验论文连接:Attention-Bas ...
文献阅读二—Robsut Wrod Reocginiton via Semi-Character Recurrent Neural Network
题目:Robsut Wrod Reocginiton via Semi-Character Recurrent Neural Network 作者:Keisuke Sakaguchi Kevin Du ...

【论文阅读】Recurrent Neural Network Regularization

引言

相关工作

正则化LSTM

实验

总结

【论文阅读】Recurrent Neural Network Regularization相关推荐

最新文章

热门文章