#论文 《Towards Binary-Valued Gates for Robust LSTM Training》
前两周就看到这篇论文的微信号文章介绍了,今天有空拿出来看一下,梳理一下思想。
这个论文主要解决的是在LSTM中,发现记忆门和遗忘门的值的分布不够显著,和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致,所以论文作者提出了用一种方法(Gumbel- Softmax estimator)来对门中的阈值进行改进,从而让阈值更加显著的趋向0或者1,近似二值化。这样做有几个好处:
和设计遗忘门和记忆门的初衷更加符合,让记忆的就记住,遗忘的就忘掉。让这些门开就是开,关就是关,而不是所有门都模模糊糊的在中间值附近游荡。
0-1化的模型参数,更容易压缩。
泛化能力更强。
作者验证了门的输出对于输入值不敏感,可以通过low-rank approximation and low-precision approximation对数据进行压缩,压缩后得到的模型的性能没有下降,反而更加鲁棒和更有泛化性。
下面是直观的表示,是否二值化前后的门中的值的数据分布对比,可以看出,确实更加显著的向两端分化了。
最主要要学习的思想,还是验证假设的思想。在LSTM中,对遗忘门和记忆门的假设,去真正看下门内的值的分布,从而去探究模型内部是否有问题,然后才想办法去纠正这个问题,查看是否会有提升。
#论文 《Towards Binary-Valued Gates for Robust LSTM Training》相关推荐
- 经典DL论文研读(part4)--ImageNet Classification with Deep Convolutional Neural Networks
学习笔记,仅供参考,有错必纠 文章目录 ImageNet Classification with Deep Convolutional Neural Networks 摘要 Introduction ...
- 《每日论文》ImageNet Classification with Deep Convolutional Neural Networks
这篇论文是剖析 CNN 领域的经典之作,也是入门 CNN 的必读论文.作者训练了一个面向数量为 1.2 百万的高分辨率的图像数据集 ImageNet, 图像的种类为 1000 种的深度卷积神经网络. ...
- AlexNet论文翻译(中英文对照版)-ImageNet Classification with Deep Convolutional Neural Networks
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[AlexNet纯中文版] ImageNet Classification with De ...
- ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中文版
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...
- 论文《ImageNet Classification with Deep Convolutional Neural Networks》阅读及AlexNet的Tensorflow2复现
论文<ImageNet Classification with Deep Convolutional Neural Networks>阅读及AlexNet的Tensorflow2复现 论文 ...
- ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...
- 论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (1/3)
文章目录 Authors and Publishment Authors Bibtex Abstract 1. Introduction 2. The Dataset Authors and Publ ...
- 《ImageNet Classification with Deep Convolutional Neural Networks》翻译
1 引言 2 数据集 3 架构 3.1 ReLU 非线性 3.2 训练多个GPU 3.3 局部响应归一化 3.4 重叠池化 3.5 整体架构 4 减少过拟合 4.1 数据增强 4.2 Dropout ...
- 论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (2/3)
文章目录 3. The Architecture 3.1. ReLU Nonlinearity 3.2. Training on Multiple GPUs 3.3. Local Response N ...
- 论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (3/3)
文章目录 6. Results 6.1. Qualitative Evaluations 7. Discussion References 6. Results Our results on ILSV ...
最新文章
- 太极图正确画法_小小太极图,暗藏大乾坤!您真的看懂了这张“中华第一图”?...
- python序列类型-python序列类型种类详解
- 协程的三种同步方式Channel、Mutex、WaitGroup
- sqlite 字符串 转 整型 cast 函数 (强制类型转换 )
- 机器人总动员中的小草_机器人总动员读后感
- 关于Socket通信服务的心跳包(转)
- 信息学奥赛一本通(1021:打印字符)
- idea拦截了html中的静态资源,IDEA配置静态资源热加载操作(Springboot修改静态资源不重启)...
- 亚马逊ec2服务器上无法使用sudo执行npm命令的解决办法
- 现在该去外企吗?入职微软三个月的我告诉你!
- matlab中摄像机标定,基于Matlab的摄像机标定系统的设计与实现
- MySQL5.7 Group Replication (MGR)
- 最新的北京2012年地铁规划图
- 卡斯卡迪亚社区建设者奖:2017年获胜者公布
- 在JavaScript中改变鼠标指针样式的方法
- 2020社会热点问题及看法_翁源县2020年食品安全宣传周正式启动!
- wps怎么把字缩到最小_wps怎么把最左侧的字体变小
- 沃云服务器上部署web项目(亲试)!
- python中的pyc文件了解一下?
- [HEOI2012]采花
热门文章
- date oracle 显示毫秒_oracle数据库to_date日期格式化到毫秒 | 学步园
- java简历达内_达内教你怎么写大牛简历
- matlab rbf函数_基于径向基函数(RBF)的无网格伪谱法与程序实现(2)——微分矩阵...
- form参数化 jq_[转载]Jquery Form插件表单参数
- python函数式编程读取数据时出现错误_写 Python 代码不可不知的函数式编程技术...
- java合并整形_java中2个int合并成一个long
- boot spring 接口接收数据_基于 Spring Boot 实现 Restful 风格接口,实现增删改查功能...
- python 网络通讯 plc_PLC与PC网络通信实验
- 计算机组装各个配件的选用,组装电脑各个配件装机心得与经验
- 怎么打开网卡rss_电脑任务栏右下角宽带图标提示网络电缆没插好怎么办?