本来是打算搜搜RNN或者LSTM的原文,结果arxiv上没搜到(求求,帮帮),然后就搜到知乎上一个回答:

心想完蛋,年份跨度比较远的论文读起来会不会很费劲啊。结果搜到LSTM的原论文了(论文链接:https://www.bioinf.jku.at/publications/older/2604.pdf),一看,30页还有好多看不懂的公式与图,就突发感慨:啊,有些知识还是看看二创的比较好,LSTM这种还是果断放弃吧,之后有时间找找比较好的博客之类的看,http://colah.github.io/posts/2015-08-Understanding-LSTMs/这个感觉就不错。

废话说多了。今天看的这个是《Recurrent Neural Network Regularization》,加上参考文献一共就8页,讲的是RNN及其变体怎么进行正则化以防止过拟合的方法。

论文地址:[1409.2329v5] Recurrent Neural Network Regularization (arxiv.org)

以下是正文:

这篇文章的主旨是:dropout最好只用在从当前时间步的输入到输出的连接上,而不应用在递归连接上(即与隐藏状态或者历史信息相关的计算)

然后,恭喜你已经看完了整个文章。


引言

正则化最常用的一种方法是dropout,但是RNNs却不怎么适合应用dropout(可能是实验的结果),也是因此,RNNs只能使用小网络以避免过拟合,这很大程度上限制了RNN的能力。

这篇文章就是讲作者如何改造应用dropout的方式以帮助RNN从dropout中受益。


相关工作

这一节,作者引用了很多相关的工作的文献,很不巧,我一个都没看过。

关于为什么RNN不适合用dropout,有一个文献提到,RNN不适合dropout的原因是因为递归过程会放大噪声

其他的文献就一点都不懂啦


正则化LSTM

作者首先贴心地带着我复习了一下RNN和LSTM的基础知识,之后开门见山地讲这篇文章的主要思想:dropout只应用在非递归连接上,用图展示就是:

虚线是应用dropout的连接,实线是不应用dropout的连接。作者下面给出的公式表明,dropout进行mask的对象是每一层的输入向量(有的论文里进行mask的对象是权值矩阵):

为什么这样呢?我理解作者的意思是:这样做,dropout引入的不确定性不会伤害到整个网络记住过去信息的能力,即关于记忆的部分不会被引入的不确定性影响。换句话说,可以看到,每一个过往的输入与当前的输出的连接都经过了L+1次dropout(L是层数),这个次数是固定的,且不随时间差的改变而改变。而标准的dropout扰乱了递归连接,使得LSTM更难学习存储长期信息。


实验

作者在四种领域里进行实验:language modeling、speech recognition、machine translation、image caption generation。结果的数据就不多赘述了,不过我对作者进行的实验有一些怀疑,因为作者设置的大LSTM与小LSTM的差别只是每一层的单元数不同,但是我想,正常的第一反应不应该是增加层数吗,毕竟相比更宽,更深才是深度学习的主流趋势吧。而且作者进行对比的实验的其他参数设置等没有做到对照实验要求的一致,不太明白为什么。

不过我看作者实验过程提到一句,大概意思是第一个minibatch的初始隐藏状态被初始化为0,此后的minibatch的初始隐藏状态都以上一个minibatch的最后一步的隐藏状态作为初始化。我没想过还能这样玩,学到了,以后可以试试。


总结

哦瓦力马苏,不写啦。


没啥不懂的地方,这篇文章读得特别顺,45分钟就读完了。

感谢作者!

【论文阅读】Recurrent Neural Network Regularization相关推荐

  1. 读论文《Recurrent neural network based language model 》

    读论文<Recurrent neural network based language model > 标签(空格分隔): 论文 introduce 本文将循环神经网络RNN引入了神经网络 ...

  2. Deep Learning 论文笔记 (2): Neural network regularization via robust weight factorization

    under review as a conference paper at ICLR 2015. Motivation: 本文提出来一种regularization的方法,叫做FaMe (Factor ...

  3. RNN(recurrent neural network regularization)

    论文:https://arxiv.org/pdf/1409.2329.pdf 摘要: 论文为RNN中的LSTM单元提出一个简单的调整技巧,dropout在调整神经网络中取得非常大的成功,但是在RNN( ...

  4. (zhuan) Recurrent Neural Network

    Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...

  5. Recurrent Neural Network系列2--利用Python,Theano实现RNN

    作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...

  6. Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读

    <Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling& ...

  7. 论文笔记及Pytorch复现:A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction

    论文地址 GitHub代码地址 论文题目为<基于双阶段注意力机制的循环神经网络>,文章本质上还是基于Seq2Seq的模型,结合了注意力机制实现的时间序列的预测方法,文章的一大亮点是:不仅在 ...

  8. Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling论文笔记

    文章目录 摘要 方法 Encoder-Decoder Model with Aligned Inputs Attention-Based RNN Model 实验 论文连接:Attention-Bas ...

  9. 文献阅读二—Robsut Wrod Reocginiton via Semi-Character Recurrent Neural Network

    题目:Robsut Wrod Reocginiton via Semi-Character Recurrent Neural Network 作者:Keisuke Sakaguchi Kevin Du ...

最新文章

  1. 【转】解决smtplib发送多人邮件没有展示收件人的问题
  2. 如何在Mysql的Docker容器启动时初始化数据库
  3. 有机发光二极管显示器测试方法_有机激光二极管从梦想变为现实
  4. 读后感《我回阿里的29个月》
  5. Win7+xp命令行 一键修改IP、DNS
  6. Python数据类型之元祖
  7. css学习_文本有关的样式属性、sublime快捷生成标签
  8. 使用Excel办公,你必须学会的文件加密、单元格锁定、复制可见单元格
  9. 项目管理如何真正实现降本增效?
  10. Google - 搜索图片快速设置
  11. 服务器机箱销售跑哪些地方,网购主机老出问题?其实你早已上当受骗,这些猫腻很多人都不知道...
  12. python pandas的read_html方法爬取网页表格
  13. 烧钱数亿后,趣店罗敏的预制菜业务从兴到衰
  14. T9632 待机led 控制
  15. 微信公众平台与微信开放平台的区别、服务号、订阅号、企业微信的区别
  16. 小马哥----高仿三星note3 n9002 9006主板型号A202 刷机后修复返回键失灵实例说明
  17. unity万能的提示窗口
  18. RGB24 To Yuv420 C语言实现
  19. 印刷方式——标识丝印工艺
  20. 皇家贝贝骗子佟大为赴内蒙出席活动 影迷冒严寒守候支持

热门文章

  1. Docker网络 - docker network详解
  2. 计算机应用买苹果电脑,省吃俭用买下苹果电脑:用了8年才彻底报废
  3. 10.opencv-python;cv2库;Sobel算子
  4. 夏季宝宝饮食要注意 五大饮食守则要牢记
  5. php去掉字符串含有的控制字符。
  6. ​贝莱德CEO最新回应:比特币是国际资产,ETF将推动加密货币投资民主化
  7. 2022年9月19日--9月25日(ue4热更新视频教程为主,本周10小时。合计1592小时,剩余8408小时)
  8. 职称论文重复率不超过10%
  9. JavaScript全讲-实战技巧
  10. DMRS for PBCH