arXiv.org 是一个专门收集物理学、数学、计算机科学与生物学论文预印本的网站。数据显示,截至 2014 年底的时候,arXiv 已经达到了一百万篇以上的论文藏量,并且还在以每月 8000 篇的速率增长。算是目前全球最具规模的论文数据库之一。

近日,来自斯坦福大学计算机学院的博士毕业生、OpenAI 的高级科学家 Andrej Karpathy 基于一份 arXiv 机器学习论文大数据,从论文数量、开源框架、数学模型和优化算法等多个方面对过去五年中的机器学习变化趋势进行了详细分析,并将分析结果发布在个人博客上。

想必你一定听说过谷歌趋势(Google Trends)或者百度指数这种工具,任意输入一个关键词,就能立刻看到关于该词在过去几个月甚至几年之内的变化趋势。受此启发,碰巧我手边正好有一份 arXiv 论文数据集,它收集了过去五年中机器学习相关的 28303 篇论文。那么与谷歌趋势类似,从这些论文中,我们能否看到一些机器学习领域的科研发展趋势呢?我就此进行了详细的数据分析,发现这个结果相当有趣,因此在这里把它分享出来。

论文总量

首先我们看一下论文数量。在过去五年中,arXiv 收集的机器学习论文数量变化情况如下图所示。

从上图可以看到,论文总数在 2017 年 3 月出现了一次激增,从时间上看可能是由于 NIPS 和 ICML 等大型会议的论文提交截止日期正好在 3 月。而且有一点需要说明的是,arXiv 的论文数据集虽然全面,但也并不能完全代表整个机器学习行业的变化趋势,因为毕竟不是所有人都习惯于将自己的论文投递到 arXiv 网站上。不过,从上图我们仍然可以看到一个明显的上升趋势,这说明机器学习的热度的确在持续地上升中。

下面我们将以这些论文作为研究材料,看看其中包含着怎样的变化趋势。

深度学习框架

首先看看深度学习框架的情况。这里我记录了在 2017 年 3 月上传的所有论文中(包括参考书目和论文内容)提到的机器学习框架情况:

可以看到,在 2017 年 3 月份提交的所有论文中大约有 10% 都提到了 TensorFlow。当然,并不是每一篇论文都声明了框架的使用,但是如果我们假设论文以某一固定的概率分布来声明框架,并且这个概率与框架本身无关的话,那么大概有高达 40% 的社区都在使用 TensorFlow(如果也算上用 TensorFlow 作为 Keras 后端的论文,这一比例将会更大)。下面是这些框架随时间变化的趋势:

可以看到,Theano 已经高速发展了一段时间了,但近期它的增速正在放缓。Caffe 从 2014 年前后开始快速爆发,但在过去几个月中已经被强大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也处于上升期,虽然增速略显缓慢,不过增长稳定。我估计再过几个月再来看这个结果会更有趣,因为根据我的估计,未来 Caffe 和 Theano 将会缓慢衰落,而由于 PyTorch 的崛起,TensorFlow 的增速可能会放缓。

卷积神经网络模型(CNN)

下面再看一下卷积神经网络的情况,从下面的图表中可以清楚地看到,作为 CNN 领域里重要里程碑的 ResNets(深度残差网络)在 2016 年底的激增情况,在 2017 年 3 月提交的所有论文中甚至有大约 9% 都提到了 ResNets。

另外,这里还能看到在谷歌 InceptionNet 之前,实际上已经有论文提到了 inception 的概念。

优化算法

在优化算法方面,Adam 算法可以算是应用最多的一个,大约有高达 23% 的论文都提到了它。这里需要说明的是,在实际使用中 Adam 算法的采用率可能更高,因为许多论文都不会显式地声明优化算法,更有一部分论文甚至不会阐述关于神经网络优化的内容。另外,从图表中还能看出,在 2014 年 12 月 Adam 优化算法被正式提出之前,实际上也有一些论文提到了 “Adam” 关键词,它的概率大约维持在 5% 左右,我猜想可能是因为有许多作者的名字也叫 Adam 的缘故。

研究者

这里我还很好奇地研究了一下深度学习领域各位大牛的名字在论文中的变化情况,结果如下图所示。需要说明的是,这里的仅根据关键词统计的方式很粗糙,另外我还做了一些归一化操作。

从图表中可以看到,在所有提交的论文中,大约有 35% 提到了 bengio,但这里实际上有两个人: Samy 和 Yoshua,图中是两人加起来的结果。另外需要特别指出的是,在所有新论文中有超过 30% 都提到了 Geoff Hinton 大神,这一点很强大。

关键词

最后一部分是关键词。这里我首先统计了所有一元关键词和二元关键词在论文中的出现情况 ,并对当下和一年之前这些词汇的最大采用率做了对比。这里我作为基准采用的论文都是一些近两年被引用次数最高的优秀论文。以下是一些排名靠前的关键词:

以 ResNet 举例来说,它的相对热度之所以是 8.17,是因为它在 2016 年 3 月所有论文中的采用比是 1.044%,而到了今年 3 月,它的采用比则增长到了 8.53%,用两个百分比相除,就得到了 8.17。

从以上图表可以看出,在过去一年中最火热的机器学习创新技术包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上热词包括:风格转换(style transfer)、深度强化学习(deep RL)、神经网络翻译以及图像生成等。最后,在模型方面可以看到:全卷积网络(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets等热词。

与之相反,哪些关键词在过去一年中出现了下滑,变成了最冷门的关键词?我整理了以下排名:

可以看到,fractal(分形) 和 bayesian(贝叶斯)相关的内容在近一年的时间中热度衰减严重

总结

话说,看完了所有的分析结果,你不赶紧写一篇基于全卷积神经网络、BatchNorm、ResNet 和 GAN 技术,通过 Adam 算法优化,并应用于风格转换的论文么 :)

本文作者:恒亮
本文转自雷锋网禁止二次转载,原文链接

用两万篇论文告诉你:机器学习在过去五年中发生了什么相关推荐

  1. 170多万篇论文,存储量达1.1 TB,Kaggle上线arXiv完整数据集

    机器之心报道 编辑:杜伟.小舟 现在,用户可以在 Kaggle 平台上获取 arXiv 论文了! 众所周知,arXiv 是我们搜索.浏览和下载学术论文的重要工具.近 30 年来,arXiv 为公众和研 ...

  2. 为什么名校论文发表率更高?研究人员刷了160万篇论文数据发现:只是因为劳动力多...

    白交 发自 凹非寺 量子位 | 公众号 QbitAI 为什么研究机构越知名,它发表的论文越多? 最新研究表明,无关天赋,无关声望,只是因为他们拥有更多的劳动力. 来自科罗拉多大学博尔德分校的研究人员, ...

  3. 【爱笑话7.0版】笑话两万篇,免费阅读,绝无广告

    本软件是一款分类笑话阅读软件,提供七大类笑话,总数两万篇. ------ 免费阅读,绝无广告 ------ 可随意调整字体大小和颜色,并能自定义背景图片,颜色,设置为最适合自己的画面,为我所悦. 还能 ...

  4. CV十年发展之观察:1.5万篇论文透视「业界」与「学界」,到底谁更胜一筹?...

    视学算法报道 转载自:机器之心 编辑:杜伟 为了调查计算机视觉领域业界赞助的研究所占的比例,以及它们对该领域产生的影响,加拿大约克大学的一位博士生分析了 2010 至 2019 十年间 Top-5 计 ...

  5. 【论文相关】1.1 T 的 arXiv 数据集:170 万篇论文,可以看到下辈子

    By 超神经 内容提要:近日,arXiv 将 170 万+ 篇的论文,打包成数据集,放在了 kaggle 平台,以后访问和下载论文,就更方便了.该数据集目前大小 1.1 TB 左右,而且之后还会随着每 ...

  6. kaggle数据集_ArXiv170万篇论文数据集上线Kaggle!

    大数据文摘出品 学术圈的朋友对ArXiv肯定都不陌生. 在将近30年的时间里,ArXiv通过公开访问学术文章为公众和研究社区提供了一个更高效的学术成果沟通平台,从物理学到计算机科学的许多子学科,以及介 ...

  7. 爬取两万多数据,告诉你广州房租价格现状(4)

    爬虫利器初体验(1) 听说你的爬虫又被封了?(2) 爬取数据不保存,就是耍流氓(3) 爬取两万多租房数据,告诉你广州房租现状(4) scrapy 也能爬取妹子图?(5) scrapy遇上ajax,抓取 ...

  8. 为什么2G/3G和AI擦不出火花?他们用这篇论文告诉你答案

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 都说5G ...

  9. 一场直播教你深挖6万篇论文+50万学者信息,瓜分10万元奖金

    日前,由"未来杯AI挑战赛"发起,智谱·AI与AI TIME联合承办的"未来杯-智谱人工智能科技探索赛"正火热进行中.本次直播将由比赛主办人员针对赛题进行bas ...

最新文章

  1. 【深度学习】基于深度神经网络进行权重剪枝的算法(二)
  2. Python编程基础:第三十五节 文件删除Delete a File
  3. java-两数倒置后求和
  4. PyCharm集成Anaconda3环境下安装 腾讯优图报错 ERROR: Could not install packages due to an EnvironmentError
  5. C++ STL简介(转)
  6. 华为鸿蒙系统学习笔记4-方舟编译器源码下载及安装
  7. python向量化编程技巧_Python学习(六)向量化
  8. mmseg 同义词分析器 SolrSynonymParser
  9. Exchange Server 2007迁移Exchange Server 2010 (15)---启用Outlook anywhere
  10. 联想计算机usb驱动程序,联想笔记本USB3.0驱动
  11. Ant Design介绍
  12. wps垂直排列标题与文本_如何垂直设置wps文本
  13. codevs 1329 东风谷早苗
  14. IMAX Enhanced:让沉浸式家庭影音娱乐体验不再抽象
  15. 蓝筹股票会退市吗?什么是白马蓝筹股票?
  16. 服务器选云主机还是VPS主机呢?
  17. 获取当前格林威治时间
  18. 超爽的对战游戏3.0版本来了 非常有趣
  19. 1月15日科技资讯|微信可直接转账到 QQ;小米联合中国联通推出当前最便宜 5G 套餐;Git 2.25.0 发布
  20. 开发微信公众平台的基本功能

热门文章

  1. Tips on rendering interiors
  2. 第3章 一切基于pom
  3. Python——调用shell命令的三种方法
  4. 通过MVC模式将Web视图和逻辑代码分离
  5. 如何使用HttpContext对象
  6. ES6新特性_ES6生成器函数的参数传递---JavaScript_ECMAScript_ES6-ES11新特性工作笔记021
  7. 运维测试工作笔记0001---单台普通8G内存的服务器-可以达到的http并发量
  8. SpringCloud工作笔记083---Idea中启动多个项目的时候_内存调整_节省内存
  9. SpringCloud学习笔记024---SpringBoot中使用大部分公用的配置记录
  10. python数据结构-栈(stack)