ICLR 2018 有什么值得关注的亮点?
列表——taineleau(知乎)
Learning Differentially Private Recurrent Language Models
Synthetic and Natural Noise Both Break Neural Machine Translation
Learning One-hidden-layer Neural Networks with Landscape Design
Neural Sketch Learning for Conditional Program Generation
Minimal-Entropy Correlation Alignment for Unsupervised Deep Domain Adaptation
N2N learning: Network to Network Compression via Policy Gradient Reinforcement Learning
Simulating Action Dynamics with Neural Process Networks
A Neural Representation of Sketch Drawings
Certified Defenses against Adversarial Examples
A Deep Reinforced Model for Abstractive Summarization
DCN+: Mixed Objective And Deep Residual Coattention for Question Answering
作者:宫一尘
这篇文章一定是做机器翻译必看的一篇文章。是佳涛在Saleforce Research做的工作。这个工作成功实现了non-autoregressive 的机器翻译,并获得了非常接近SoTA的成绩。传统的autoregressive翻译需要在decoding的时候每次生成一个词,并把生成的词放到下一个timestamp的decoding输入中,再生成下一个输出。而这篇文章成功地将inference简化为一次,也就是说,将在inference过程中将省下80%~90%的计算量,粗略估计可以为机器翻译服务省下近80%的成本。之前很多优秀的研究者包括Kyunghyun Cho也探索过这个领域,不过无疾而终,因为这个确实是一个很难的问题。而这个工作让我们看到了曙光。很期待接下来有别的工作可以在这个基础上展开。
作者:lei tai
介绍一个隔壁组Ilya Loshchilov&&Frank Hutter教授的成果, 应该是重剑无锋, 大巧不工的典范了。Fixing Weight Decay Regularization in Adam
Adam作为一个非常常用的深度学习优化方法, 可以说用途非常广泛了(三年不到引用4000+...). Weight Decay也是大量数据优化时, 训练后期非常常用的一个trick. 出发点是目前分类分割最好的一些结果, 都发现自适应梯度方法(比如Adam)的扩展性不如SGD+Momentum. 这篇paper发现了一个简单, 但是很少有人注意的事实, 那就是现行的所有深度学习框架, 在同时处理自适应梯度类方法(比如Adam)和weight decay的时候, 一定程度上抵消了weight decay的作用. Weight decay本身的目的是限制一下值比较大的weight, 使值比较大的weight下降的更多, 从而避免模型过拟合于某几个大的weight。
而目前L2的实现方法, 使梯度值较大的weight, 下降的比预想的要少. 换句话说, 两个weight一样大, weight decay对他们应该起到的作用是一样的. 但是其中梯度比较大的那个因为Adam的归一化, 反而下降的比较小. 从而指出L2和weight decay并非完全等价。解决的办法也非常简单:
现行框架都是在优化器之前加上L2项, 这样L2的作用就受到了优化器和learning rate(alpha)的影响. Adam的自适应归一化, 将梯度大的weight也进行了归一化, 抵消了L2带来的weight decay的作用. 这篇paper按照weight decay原始的概念, 把它加到了优化器作用之后, 使其与learning rate完全脱钩, 真正发挥weight decay的作用. (公式中SetScheduleMultiplier来自Frank2017年的ICLR SGDR: Stochastic Gradient Descent with Warm Restarts)。
作者:刘嘉耿
ICLR 2018 在机器翻译领域连出几篇亮点文章,比如大牛 Cho 等人的无监督翻译 Unsupervised Neural Machine Translation ,在几乎没有平行语料的情况下,借助各种语言中普遍存在的阿拉伯数字作为种子对,用近两年的 cross-lingual embedding + noisy input reconstruction + backtranslation 等方法得到了接近有监督模型的结果。
趣闻:本文主要作者来自巴斯克州立大学 (Euskal Herriko Unibertsitatea) ,其使用的巴斯克语是欧洲仅存的孤立语言。
感谢知乎朋友的分析与回答,谢谢!
ICLR 2018 有什么值得关注的亮点?相关推荐
- 2018年最值得关注的15大技术趋势,区块链将得到更广泛的应用
通常情况下,技术趋势是很难准确预测的,因为预测未来本身就极其困难.但是我们还是可以从过往的一些显著数据指标来推测新的一年里科技行业的发展趋势. 2018,有哪些值得关注的技术趋势? 01 区块链将得到 ...
- 2018年最值得关注的15大技术趋势
通常情况下,技术趋势是很难准确预测的,因为预测未来本身就极其困难.但是我们还是可以从过往的一些显著数据指标来推测新的一年里科技行业的发展趋势. 2018,有哪些值得关注的技术趋势? 01 区块链将得到 ...
- 2018年最值得关注的10家区块链公司新秀
随着分布式账本技术规模化应用的案例开始出现,采用这一技术的企业逐步增多,预计2014年全球区块链行业的市场规模将达到600亿美元.尽管该技术目前还处于十分早期的阶段,但受其巨大的潜力的吸引,世界各国的 ...
- 一文了解 2018 年最值得关注的 12 大框架
点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! [CSDN编者按]如今的 IT 领域对开发者要求越来越高,对各种框架的掌握变得非常重要,掌握 ...
- ICLR 2021 有什么值得关注的投稿?
链接:https://www.zhihu.com/question/423975807 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:简单名 https://www.zhihu.com/ ...
- CVPR 2016 有什么值得关注的亮点?
孔巴巴 ,聚焦目标检测,神经网络 周若凡 等 108 人赞同 更新2 CNN遍地开花,传统方法很冷清 CNN RNN结合的文章越来多,但如何联合训练仍然有待进一步解决 有人在致力于挖新坑,老坑越来越难 ...
- 重新定义NAS!群晖发布会上值得关注的亮点产品与技术
群晖2017年新品发布会已经于上个周末(9月25日)在北京成功召开了.关于群晖这个专注于存储的厂商,行业内的用户相信并不陌生.对于这次发布会的报道,想来想去,还是为大家一一盘点一下在会上发布的新产品与 ...
- 在大数据时代下,2018年最值得关注的15大技术趋势
通常情况下,技术趋势是很难准确预测的,因为预测未来本身就极其困难.但是我们还是可以从2017年的一些显著的数据指标来推测2018年科技行业的一些发展趋势的. 许多人对科技行业概念的理解过于具体和狭隘了 ...
- 【大数据】2018年最值得关注的15大技术趋势
通常情况下,技术趋势是很难准确预测的,因为预测未来本身就极其困难.但是我们还是可以从2017年的一些显著的数据指标来推测2018年科技行业的一些发展趋势的. 许多人对科技行业概念的理解过于具体和狭隘了 ...
最新文章
- 11.保存登录状态与注销功能
- postgreSql 常用操作总结
- 在centos中安装samba 服务
- 和DOM一起的日子:检测与预防DOM跨站脚本攻击
- css:style样式
- python库中文手册_Python3.8.1标准库参考中文手册(The Python Library Reference) 高清pdf版...
- SOUI使用总结知识汇总.
- 2021年中国DDI(DNS-DHCP-IPAM)解决方案市场趋势报告、技术动态创新及2027年市场预测
- 一文详解知识图谱关键技术与应用 | 公开课笔记
- macOS Big Sur 11.7.5 (20G1225) 正式版 ISO、PKG、DMG、IPSW 下载
- 更愿意思念更早的“金陵”
- 【SQL server】关系运算
- 技术福利:最全实时音视频开发要用到的开源工程汇总
- 新品密集!2020中关村论坛技术交易大会-第二场新技术新产品首发活动圆满举行...
- 百度nlp实习生转岗(猝)
- 家庭监控安防行业存在哪些问题?看TSINGSEE青犀视频如何解决
- win10常用快捷键及官网说明
- js倒计时代码 支持同一页面多个倒计时代码(转)
- 练手臂哑铃用多少公斤合适?内行人一语道破!
- js中截取字符串前几位的两种方法slice()substring()
热门文章
- 开源机器学习工作流Ploomber
- 学习前端怎么样?优势有哪些
- c语言中a 的用法,C语言中#define的用法
- redis的lru原理_Redis的LRU算法
- android cocoscreator jsc js 间加解密(六)
- Buildroot编译单个模块
- 字节跳动Android面试全套真题解析在互联网火了,系列教学
- python 10进制转2进制
- 城市隧道水位监测与预警系统
- C#,图论与图算法,寻找图强连通单元(Strongly Connected Components)的罗伯特·塔扬(Robert Tarjan‘s Algorithm)算法与源程序