干货丨2017年深度学习必读31篇论文(附下载地址)
2017年已经擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文,包括架构/模型、生成模型、强化学习、SGD & 优化及理论等各个方面,有些论文名扬四海,有些论文则非常低调。
一如既往,首先,标准免责声明适用,因为今年仅与GAN有关的论文就超过1660篇。我肯定会有疏漏,试图缩减到每两周一篇论文,包含了Imperial Deep Learning Reading Group上的大量素材。无论如何,我们开始吧。
01 架构/模型
今年的Convnet网络架构已经少得多,一切都稳定了。 有些论文肯定是在推动这项研究。 其中首先是安德鲁·布鲁克(Andrew Brock)的破解SMASH,尽管有ICLR的评论,但它已经在1000个GPU上进行了神经架构搜索。
SMASH:基于超网络的模型结构搜索
SMASH : one shot model architecture search through Hypernetworks
论文下载地址:
https://arxiv.org/pdf/1708.05344.pdf
DenseNets(2017更新版)是一个印象深刻又非常单纯的想法。TLDR是“计算机视觉,眼+皮毛=猫,所以万物互联(包括层)”
密集的连接卷积神经
Densely connected convolutional networks
论文下载地址:
https://arxiv.org/pdf/1608.06993.pdf
在CNNs,一个非常被低估的理念是小波滤波器组系数散射变换(conv+maxpool和ReLUctant组建小波理论)。不知何故,令人惊讶的是,这揭示了为什么一个ConvNet前几层像Gabor滤波器,以及你可能不需要培训他们。用Stephane Mallat的话,“我对它的工作原理非常吃惊!”见下文。
缩放散射变换
Scaling the Scattering Transform
论文下载地址:
https://arxiv.org/pdf/1703.08961.pdf
在维基百科上,Tensorized LSTM是新的SOTA,有人英语的编码限制是1.0,1.1 BPC(作为参考,LayerNorm LSTMs大约是1.3 bpc)因为新颖,我更愿意把这篇论文定为“超级网络的复兴之路”。
序列学习Tensorized LSTMs
Tensorized LSTMs for sequence learning
论文下载地址:
https://arxiv.org/pdf/1711.01577.pdf
最后,无需多言。
胶囊间动态路由
Dynamic Routing Between Capsules
论文下载地址:
https://arxiv.org/pdf/1710.09829.pdf
EM路由矩阵胶囊
Matrix capsules with EM routing
论文下载地址:
https://openreview.net/pdf?id=HJWLfGWRb
02 生成模型
我故意遗漏了英伟达关于GAN网络逐渐增大的令人颇为震惊的论文。
先用自回归家庭–Aaron van den Oord的最新力作,vq-vae,是其中的一个文件,看起来明显的滞后,但想出背景渐变止损功能也是不小的壮举。我敢肯定,一堆的迭代,包括包在ELBO’ed Bayesian层中的ala PixelVAE将会发挥作用。
神经离散表示学习
Neural Discrete Representation Learning
论文下载地址:
https://arxiv.org/pdf/1711.00937.pdf
另一个惊喜来自并行WaveNetwavenet。当每个人都在期待着与Tom LePaine的工作成果保持一致,DeepMind给我们师生分离,并通过解释高维各向同性高斯/物流潜在空间,作为一个可以通过逆回归流自噪声整形的过程,。非常非常整洁。
并行Wavenet
Parallel Wavenet
论文下载地址:
https://arxiv.org/pdf/1711.10433.pdf
头号文件,没有人预料到- Nvidia公司制定了标准。GAN理论完全代替了Wassersteinizing (Justin Solomon的力作),仅保持KL损失。用数据分布的多分辨率近似摒弃了不相交的支持问题。这仍然需要一些技巧来稳定梯度,但经验结果不言自明。
GAN逐渐增长
Progressive growing of GANs
论文下载地址:
https://arxiv.org/pdf/1710.10196.pdf
而今年早些时候Peyre和genevay负责的法国学校定义了最小Kantorovich Estimators。这是Bousquet主导的谷歌团队,该团队曾写下了 VAE-GAN的最终框架。这篇WAAE论文可能是ICLR2018最顶级的论文之一。
VeGAN手册
The VeGAN cookbook
论文下载地址:
https://arxiv.org/pdf/1705.07642.pdf
Wasserstein自动编码器
Wasserstein Autoencoders
论文下载地址:
https://arxiv.org/pdf/1711.01558.pdf
在变分推理面前,没谁比Dustin Tran从强化学习策略和GAN中借鉴到的思路更好,再次推动了先进的VI。
层次式模型
Hierarchical Implicit Models
论文下载地址:
https://arxiv.org/pdf/1702.08896.pdf
03 强化学习
“被软件/ max-entropy Q-learning主导了一年,我们错了,这些年!
Schulman证实了RL算法的主要的两个成员之间的的等价性。里程碑式的论文,”Nuff 称。
策略梯度与Soft Q-learning的等价性
Equivalence between Policy Gradients and Soft Q-learning
论文下载地址:
https://arxiv.org/pdf/1704.06440.pdf
他有没有在非常仔细的用数学和重新做分区函数计算来证实路径的等价性?没有人知道,除了Ofir:
缩小RL策略和价值之间的差距
Bridging the gap between value and policy RL
论文下载地址:
https://arxiv.org/pdf/1702.08892.pdf
另一篇被低估的论文,Gergely通过找出RL程式和convex 优化理论的相似点,默默的超越了所有人。今年IMHO有关RL论文的佳作,不过知名度不高。
统一的熵规则MDP的观点
A unified view of entropy-regularized MDPs
论文下载地址:
https://arxiv.org/pdf/1705.07798.pdf
如果David Silver的Predictron因某种方式丢掉雷达在ICLR 2017被拒绝,那么Theo的论文就像是一个双重的观点,它以优美而直观的Sokoban实验结果来启动:
想象力增强剂
Imagination-Augmented Agents
论文下载地址:
https://arxiv.org/pdf/1707.06203.pdf
马克·贝莱马尔(Marc Bellemare)发布了另外一个转型的论文 - 废除了所有的DQN稳定插件,并简单地学习了分发(并且在这个过程中击败了SotA)。 漂亮。 许多可能的扩展,包括与Wasserstein距离的链接。
有分位数回归的RL
A distributional perspective on RL
论文下载地址:
https://arxiv.org/pdf/1707.06887.pdf
分布RL的分布视角
Distributional RL with Quantile Regression
论文下载地址:
https://arxiv.org/pdf/1710.10044.pdf
一个简单,但非常有效,双重whammy的想法。
勘探用噪声网络
Noisy Networks for Exploration
论文下载地址:
https://arxiv.org/pdf/1706.10295.pdf
当然,如果没有AlphaGo Zero的话,这个列表还是不完整的。 将策略网络MCTS前后对齐的思想,即MCTS作为策略改进算法(以及使NN近似误差平滑而不是传播的手段)是传说的东西。
在没有人类知识的情况下掌控Go游戏
Mastering the game of Go without human knowledge
论文下载地址:
https://deepmind.com/documents/119/agz_unformatted_nature.pdf
04 SGD & 优化
对于为什么SGD在非凸面情况下的工作方式(从广义误差角度来看如此难以打败),2017年已经是一年一度的成熟了。
今年的“最技术”论文获得者是Chaudhari。 从SGD和梯度流向PDE几乎连接了一切。 堪称遵循并完成“Entropy-SGD”的杰作:
深度放松:用于优化深度网络的偏微分方程
Deep Relaxation : PDEs for optimizing deep networks
论文下载地址:
https://arxiv.org/pdf/1704.04932.pdf
贝叶斯认为这是Mandt&Hoffman的SGD-VI连接。 如你所知,我多年来一直是一个繁忙的人,原文如此。
SGD作为近似贝叶斯推断
SGD as approximate Bayesian inference
论文下载链接:
https://arxiv.org/pdf/1704.04289.pdf
前面的文章取决于SGD作为随机微分方程的连续松弛(由于CLT,梯度噪声被视为高斯)。 这解释了批量大小的影响,并给出了一个非常好的chi-square公式。
批量大小,diffusion近似框架
Batch size matters, a diffusion approximation framework
论文下载地址:
https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/
又一篇受Ornstein-Uhlenbeck启发的论文,得到了类似的结果,出自Yoshua Bengio实验室:
影响SGD最小值的三个因素
Three factors influencing minima in SGD
论文下载地址:
https://arxiv.org/pdf/1711.04623.pdf
最后,又一篇Chandhari的论文,讲述SGD-SDE-VI三位一体:
SGD执行VI,收敛到限制周期
SGD performs VI, converges to limit cycles
论文下载地址:
https://arxiv.org/pdf/1710.11029.pdf
05 理论
我坚信在解释深度学习为什么有用方面,答案将来自谐波/二阶分析和信息论与基于熵的测量之间的交集。 Naftali Tishby的想法虽然因为最近ICLR 2018提交的内容引发了争议,但这仍然使我们更加接近理解深度学习。
论通过信息论揭开深度网络黑箱
Opening the black box of deep networks via information
论文下载地址:
https://openreview.net/pdf?id=ry_WPG-A-
论深度学习的信息瓶颈理论
On the information bottleneck theory of deep learning
论文下载地址:
https://arxiv.org/pdf/1703.00810.pdf
同样,来自ICLR2017的一篇漂亮的论文对信息瓶颈理论采取了一种变化的方法。
深度变分的信息瓶颈
Deep variational information bottleneck
论文下载地址:
https://arxiv.org/pdf/1612.00410.pdf
今年已经有几十亿个生成模型,12亿个因子分解对数似然的方法,大都可以归在凸二元的下面。
A Lagrangian perspective on latent variable modelling
对潜变量建模的拉格朗日观点
论文下载地址:
https://openreview.net/pdf?id=ryZERzWCZ
最后这篇论文展示了惊人的技术实力,并且告诉我们,数学深度学习的军备竞赛仍然十分活跃!这篇论文结合了复杂的分析,随机矩阵理论,自由概率和graph morphisms,得出了对于神经网络损失函数的Hessian特征值的一个精确的定律,而图(graph)的形状只在经验上是已知的,这一点在Sagun等人的论文中有论述。必读。
通过RMT看神经网络损失曲面几何
Geometry of NN loss surfaces via RMT
论文下载地址:
http://proceedings.mlr.press/v70/pennington17a/pennington17a.pdf
深度学习非线性RMT
Nonlinear RMT for deep learning
论文下载地址:
http://papers.nips.cc/paper/6857-nonlinear-random-matrix-theory-for-deep-learning.pdf
原文地址:
https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/
来源:新智源
干货丨2017年深度学习必读31篇论文(附下载地址)相关推荐
- 2017年深度学习必读31篇论文(附下载地址)
来源:新智元 本文长度为4100字,建议阅读6分钟 本文为你盘点今年最值得关注的深度学习相关论文. 2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文, ...
- 2017年深度学习必读31篇论文(附论文下载地址)
新智元报道 来源:kloudstrifeblog.wordpress.com 作者:Kloud Strife 译者:刘光明,费欣欣 2017年即将擦肩而过,Kloud Strife在其博客上盘 ...
- 干货丨机器学习和深度学习概念入门
对于很多初入学习人工智能的学习者来说,对人工智能.机器学习.深度学习的概念和区别还不是很了解,有可能你每天都能听到这个概念,也经常提这个概念,但是你真的懂它们之间的关系吗?那么接下来就给大家从概念和特 ...
- 深度丨2017年深度学习重大研究进展全解读
来源:机器之心 概要:想知道哪些深度学习技术即将影响我们的未来吗?本文将给你作出解答. 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了 ...
- 干货丨详解深度学习的一些关键术语
深度学习已经成为编程界的一股潮流,因为其在许多领域取得了令人难以置信的成功,使其在研究和工业领域广受欢迎.那么到底什么是深度学习呢? 深度学习是应用深层神经网络技术:即利用具有多个隐藏层的神经网络结构 ...
- FlyAI资讯:收藏!深度学习必读10篇经典算法论文总结!
前言 目录 前言 1998年:LeNet 2012年:AlexNet 2014年:VGG 2014年:GoogLeNet 2015年:Batch Normalization 2015年:ResNet ...
- 学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!附下载链接!...
学习深度学习以及面试肯定离不开下面的5个重要的资料,更何况是中文版! 资料领取: 扫码后台回复:3070,即可获取电子版 内容简介 1. TensorFlow深度学习 书籍特点 ...
- 54页PPT讲解DeepMind深度学习及前沿进展【附下载】
Deep Learning Indaba 2018 大会在南非斯泰伦博斯举行,由DeepMind主办.本文是由15位专家做的<深度学习: AI革命及其前沿进展>的报告. 下载方式 关注公众 ...
- 9本java程序员必读的书(附下载地址)
本文列出的9本书在Java程序员界都是被认为很棒的书.当一个程序员开始初学Java时,他的第一个问题应该是如何选择一本书来作为指导学习Java.这个问题也就表明,相对于其他的教程和博客,Java书籍还 ...
最新文章
- Pytorch optimizer.step() 和loss.backward()和scheduler.step()的关系与区别 (Pytorch 代码讲解)
- 【PAT乙级】1027 打印沙漏 (20 分)
- C# WinForm开发系列 - ToolBar/OutlookBar/Tab/Wizard(转载)
- gensim出现segmentation Fault解决方案
- 前端特效demo | 值得收藏的6个 HTML5 Canvas 实用案例
- 基于CSS3的3D旋转效果
- 10 Ways To Suck At Programming
- Java同步组件之Condition,FutureTask
- stm32cube和sw4stm32开发
- 虎牙直播电影一天收入_电影收入
- adb无线连接Android手机
- Xcelsius 2008 在win10 64位系统下 基于OFFICE2010-x64 的安装
- 003.宋浩老师《线性代数》笔记(第二章矩阵)(二)
- 融云CTO杨攀:以技术为先导 全面聚焦“互联网通信云”
- java String类型的处理
- 支持同步的Todo软件
- 深大uooc学术道德与学术规范教育第四章
- 当下移动开发唱衰,iOS开发者如何才能涅槃重生?
- 阵列信号处理仿真二——波束方向图的绘制
- 荣耀最强拍照手机诞生:荣耀20系列塑造的“潮流科技宇宙”
热门文章
- 腾讯林衍凯:图神经网络,考虑「拓扑信息」会怎样?
- 贾珈:自然语言处理中9个不可不知的研究热点(附视频)
- 一文探索 JavaScript 最强大特性—函数表达式
- Java程序员必备秘籍 Scala与Clojure函数式编程语言
- 这位90后女博导上热搜了!曾被Nature主编点赞,放弃百万英镑年薪回国任教
- 独家 | 基于数据预测的解释真的能增加用户对人工智能的信任吗?(附链接)...
- 数据团队「隐形守护者」!从被动应对到资源输出,腾讯安全20年成长记
- 首届数字中国建设峰会之“数字经济 · 闽江夜话”
- 颜宁强烈推荐:给研究生的四条金玉良言
- 谁是全球最顶级AI实验室?DeepMind、OpenAI和FAIR霸榜前三