前两周就看到这篇论文的微信号文章介绍了,今天有空拿出来看一下,梳理一下思想。

这个论文主要解决的是在LSTM中,发现记忆门和遗忘门的值的分布不够显著,和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致,所以论文作者提出了用一种方法(Gumbel- Softmax estimator)来对门中的阈值进行改进,从而让阈值更加显著的趋向0或者1,近似二值化。这样做有几个好处:

  1. 和设计遗忘门和记忆门的初衷更加符合,让记忆的就记住,遗忘的就忘掉。让这些门开就是开,关就是关,而不是所有门都模模糊糊的在中间值附近游荡。

  2. 0-1化的模型参数,更容易压缩。

  3. 泛化能力更强。

作者验证了门的输出对于输入值不敏感,可以通过low-rank approximation and low-precision approximation对数据进行压缩,压缩后得到的模型的性能没有下降,反而更加鲁棒和更有泛化性。

下面是直观的表示,是否二值化前后的门中的值的数据分布对比,可以看出,确实更加显著的向两端分化了。

最主要要学习的思想,还是验证假设的思想。在LSTM中,对遗忘门和记忆门的假设,去真正看下门内的值的分布,从而去探究模型内部是否有问题,然后才想办法去纠正这个问题,查看是否会有提升。

#论文 《Towards Binary-Valued Gates for Robust LSTM Training》相关推荐

  1. 经典DL论文研读(part4)--ImageNet Classification with Deep Convolutional Neural Networks

    学习笔记,仅供参考,有错必纠 文章目录 ImageNet Classification with Deep Convolutional Neural Networks 摘要 Introduction ...

  2. 《每日论文》ImageNet Classification with Deep Convolutional Neural Networks

    这篇论文是剖析 CNN 领域的经典之作,也是入门 CNN 的必读论文.作者训练了一个面向数量为 1.2 百万的高分辨率的图像数据集 ImageNet, 图像的种类为 1000 种的深度卷积神经网络. ...

  3. AlexNet论文翻译(中英文对照版)-ImageNet Classification with Deep Convolutional Neural Networks

    图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[AlexNet纯中文版] ImageNet Classification with De ...

  4. ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中文版

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...

  5. 论文《ImageNet Classification with Deep Convolutional Neural Networks》阅读及AlexNet的Tensorflow2复现

    论文<ImageNet Classification with Deep Convolutional Neural Networks>阅读及AlexNet的Tensorflow2复现 论文 ...

  6. ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...

  7. 论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (1/3)

    文章目录 Authors and Publishment Authors Bibtex Abstract 1. Introduction 2. The Dataset Authors and Publ ...

  8. 《ImageNet Classification with Deep Convolutional Neural Networks》翻译

    1 引言 2 数据集 3 架构 3.1 ReLU 非线性 3.2 训练多个GPU 3.3 局部响应归一化 3.4 重叠池化 3.5 整体架构 4 减少过拟合 4.1 数据增强 4.2 Dropout ...

  9. 论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (2/3)

    文章目录 3. The Architecture 3.1. ReLU Nonlinearity 3.2. Training on Multiple GPUs 3.3. Local Response N ...

  10. 论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (3/3)

    文章目录 6. Results 6.1. Qualitative Evaluations 7. Discussion References 6. Results Our results on ILSV ...

最新文章

  1. 太极图正确画法_小小太极图,暗藏大乾坤!您真的看懂了这张“中华第一图”?...
  2. python序列类型-python序列类型种类详解
  3. 协程的三种同步方式Channel、Mutex、WaitGroup
  4. sqlite 字符串 转 整型 cast 函数 (强制类型转换 )
  5. 机器人总动员中的小草_机器人总动员读后感
  6. 关于Socket通信服务的心跳包(转)
  7. 信息学奥赛一本通(1021:打印字符)
  8. idea拦截了html中的静态资源,IDEA配置静态资源热加载操作(Springboot修改静态资源不重启)...
  9. 亚马逊ec2服务器上无法使用sudo执行npm命令的解决办法
  10. 现在该去外企吗?入职微软三个月的我告诉你!
  11. matlab中摄像机标定,基于Matlab的摄像机标定系统的设计与实现
  12. MySQL5.7 Group Replication (MGR)
  13. 最新的北京2012年地铁规划图
  14. 卡斯卡迪亚社区建设者奖:2017年获胜者公布
  15. 在JavaScript中改变鼠标指针样式的方法
  16. 2020社会热点问题及看法_翁源县2020年食品安全宣传周正式启动!
  17. wps怎么把字缩到最小_wps怎么把最左侧的字体变小
  18. 沃云服务器上部署web项目(亲试)!
  19. python中的pyc文件了解一下?
  20. [HEOI2012]采花

热门文章

  1. date oracle 显示毫秒_oracle数据库to_date日期格式化到毫秒 | 学步园
  2. java简历达内_达内教你怎么写大牛简历
  3. matlab rbf函数_基于径向基函数(RBF)的无网格伪谱法与程序实现(2)——微分矩阵...
  4. form参数化 jq_[转载]Jquery Form插件表单参数
  5. python函数式编程读取数据时出现错误_写 Python 代码不可不知的函数式编程技术...
  6. java合并整形_java中2个int合并成一个long
  7. boot spring 接口接收数据_基于 Spring Boot 实现 Restful 风格接口,实现增删改查功能...
  8. python 网络通讯 plc_PLC与PC网络通信实验
  9. 计算机组装各个配件的选用,组装电脑各个配件装机心得与经验
  10. 怎么打开网卡rss_电脑任务栏右下角宽带图标提示网络电缆没插好怎么办?