点击上方“深度学习技术前沿”,选择“星标”公众号

资源干货,第一时间送达

经典也会被经典超越。

20世纪深度学习研究中,引用最多的论文不再是反向传播。

新的宠儿,是1997年Hochreiter和Schmidhuber发表的Long short-term memory。

大名鼎鼎的LSTM

作为「LSTM 之父」的 Jürgen Schmidhuber 虽然没有获得图灵奖(也因乖张的行为不受待见),但他在深度学习领域的贡献仍然获得了整个社区的「被动认可」。

最近几天,有人通过 Google Scholar 的统计发现:Hochreiter 和 Schmidhuber 1997 年发表的 LSTM 论文成为了 20 世纪被引最高的深度学习研究论文

截至今日,这篇论文的被引用量已经达到 26166,超过了 Hinton 1985 年发表的反向传播相关论文(《Learning internal representations by error propagation》)。

出人预料的排名变化是在最近发生的,LSTM 论文在 2019 年的年度引用量高达 9752 次,高于此前 Bengio、LeCun 等人年度被引最高的 CNN 相关论文(《Gradient-based learning applied to document recognition》)。

20 世纪 DL 最高被引论文易主

其实在此之前,20世纪深度学习领域被引量最高的论文一直是图灵奖得主 Geoffrey Hinton 的「反向传播」相关论文,其累计引用量达到了 64757。但值得注意的是,该引用量是标了星号的(如下图所示)。

该星号表示,这个数字代表的不是单篇论文引用量,而是几篇论文的综合引用量。包括:

  • Learning internal representations by error propagation. DE Rumelhart, GE Hinton, RJ Williams, California Univ San Diego La Jolla, Inst for Cognitive Science, 1985 (被引 25k)

  • Parallel distributed processing. JL McClelland, DE Rumelhart, PDP Research Group, MIT press, 1987 (被引 24k)

  • Learning representations by back-propagating errors. DE Rumelhart, GE Hinton, RJ Williams, Nature 323 (6088), 533-536, 1986 被引 (20k)

  • ……

因此,上图中 Hinton 被引最高的深度学习论文《Learning internal representations by error propagation》的单篇引用量应该为 25398,略低于 Schmidhuber 的上述论文。

除此之前,Schmidhuber 的上述论文在年度引用量上也拔得头筹(9752),超过了上述「反向传播」三篇论文的总和(3574+461+3181),也高于之前年度被引最高的 CNN 相关论文(6301)

Schmiduber LSTM 论文年度被引用量。

Bengio、Lecun 等人 CNN 相关论文年度被引用量。

深度学习经典论文——LSTM

LSTM 的全称是长短期记忆网络(Long-Short Term Memory),是具有长期记忆能力的一种时间递归神经网络 (Recurrent Neural Network),其网络结构含有一个或多个具有遗忘和记忆功能的单元。由于独特的设计结构,LSTM 适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

该论文首次发表于 1997 年。由德国慕尼黑工业大学的计算机科学家 Sepp Hochreiter 与 Jürgen Schmidhuber(现任瑞士 Dalle Molle 人工智能研究所的联合主任)共同完成。

论文链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.676.4320&rep=rep1&type=pdf

在提出时,LSTM 被用于解决传统 RNN 在随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括 Forget Gate、Input Gate 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。

LSTM 网络由重复结构的 LSTM 单元组成,与 RNN 不同之处在于,重复的单元有四层特殊的结构(RNN 只有一层)。

LSTM 论文中的简单模型示意图(8 个输入单元、4 个输出单元和两个存储单元),被视为深度学习领域的经典。

LSTM 的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好,比如用在不分段连续手写识别上。2009 年,用 LSTM 构建的人工神经网络模型赢得过 ICDAR 手写识别比赛冠军。LSTM 还普遍用于自主语音识别,2013 年运用 TIMIT 自然演讲数据库达成 17.7% 错误率的纪录。作为非线性模型,LSTM 可作为复杂的非线性单元用于构造更大型深度神经网络。

21 世纪 DL 最高被引论文

时间进入 21 世纪,人工智能/深度学习领域再次兴起。在新的阶段,有三篇经典论文被人们引用的数量远超其他。

有趣的是,它们都是有关神经网络在大规模图像数据集 ImageNet 之中的应用,这在一个侧面说明了计算机视觉方向的火热程度。其中一篇论文介绍了一种快速的、基于 CUDA 的深度卷积神经网络——它就是 AlexNet,这一方法赢得了 2012 年的 ImageNet 竞赛。另一篇论文则是 ImageNet 2014 年冠军的获得者:

  • A Krizhevsky、I Sutskever, GE Hinton《Imagenet classification with deep convolutional neural networks》NeuerIPS 2012 (被引次数 53,000)

  • B. K Simonyan、A Zisserman《Very deep convolutional networks for large-scale image recognition》arXiv:1409.1556, 2014 (被引次数 32,000)

年度被引次数最多的论文,当然是网络更深、性能更强大的 ResNet——《Deep Residual Learning for Image Recognition》,这一方法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军,也获得了 CVPR2016 的最佳论文奖:该研究的作者是何恺明、张祥雨、任少卿和孙剑(被引次数 36,000;其中仅在 2019 年就增长了 18,000 余次)。

孙剑等人提出的「深度残差网络 ResNet」和「基于区域卷积神经网络的快速物体检测 FasterRCNN」等技术目前被学术和工业界广泛采用,对深度学习的基础研究具有里程碑式的意义。这些研究的思路也被应用在了计算机视觉之外:ResNet 的思想也启发了 DeepMind 的 AI 围棋程序 AlphaGo Zero,并已被应用到了机器翻译、语音合成语音识别等不同领域。

ResNet 现在甚至也成为了深度学习硬件衡量算力的 Benchmark 标准。参与这一研究的四名中国学者如今也都广为被人们所知,当时他们均任职于微软亚洲研究院视觉计算组。

值得注意的是,这些「屡次打破记录的 GPU 加速卷积神经网络」也可以追溯到 Schmidhuber 及其弟子们的研究。AlexNet 的作者 Krizhevsky 在其论文里引用了 DanNet,后者是第一个充分利用 CUDA,并在图像识别挑战上超越人类水平(2011 年)的卷积神经网络。DanNet 在 2011 年的 ICDAR 中文手写内容识别竞赛、IJCNN 2011 交通信号识别竞赛、ISBI 2012 图像分割竞赛以及 ICPR 2012 医疗影像识别竞赛中获得了冠军。

作为目前卷积神经网络中最著名的一种,ResNet 比 DanNet 和 AlexNet 更深入,前者引用了 Srivastava 等人在 2015 提出的 Highway Net(也是 Schmidhuber 等人的研究),这是个特例。从某种意义上讲,这形成了 LSTM 的闭环,因为「Highway Net 在本质上是 LSTM 网络的前馈版本」。

大多数 LSTM 的引用都是参考的 1997 年的这篇 LSTM 论文,但 Schmidhuber 在 Annus Mirabilis 发表的一篇文章指出,LSTM 的基本观点可以追溯到 Seep Hochreiter 在 1991 年的毕业论文,他认为那篇论文是「机器学习研究史上最重要的文献之一」。而且他还向其他学生表示感谢:「LSTM 及其训练程序的改进,都需归功于 Felix Gers、Alex Graves 以及其他我的学生们的贡献。」

LSTM 的原理对于循环网络和前馈网络都是必不可少的,如今它存在于每一部智能手机上,还存在于 DeepMind 在星际争霸以及 OpenAI 在 Dota 这些游戏中取得的冠军中,以及大量 AI 相关应用中。

不过,LSTM 被人们「再次重视」或许也只是一时的现象。在 Reddit 上有网友指出,最近基于 Transformer 的方法正在逐渐升温。

参考链接:https://www.reddit.com/r/MachineLearning/comments/eg8mmn/d_the_1997_lstm_paper_by_hochreiter_schmidhuber/

LSTM登顶20世纪AI论文高引No.1,NLP技术崛起!!!相关推荐

  1. 一文详细介绍NeurIPS论文高引量的TOP10明星学者!!!

    NeurIPS2019即将于12月8日(本周日)在加拿大温哥华举办,NeurIPS是人工智能和机器学习领域的国际顶级会议,由NIPS基金会负责运营.该会议全称为神经信息处理系统大会(Conferenc ...

  2. 谁是中国CS高引第一人徐泽水?蝉联六年,36000次引用

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 徐泽水,并不是一个大众熟悉的名字. 但从2014年开始,他就是中国计算机科学论文高引第一人,并且2015.2016.2017.2018-- ...

  3. AI近10年21个子领域高引学者(AI-10 Most Influential Scholars )

    转自"SciTouTiao"微信公众号 本文约2100字,建议阅读9分钟. 本文节选了和AI相关的21个子领域顶会或者期刊论文的高引学者列表. [ 导读 ]近10年,人工智能发展迅 ...

  4. 近20年3867篇AI论文大调研:有缺陷的指标被滥用,好的指标被忽视

    来源:AI科技评论 本文约5400字,建议阅读6分钟. 论文调查告诉你评估机器学习模型中的不足. "用于评估AI和机器学习模型的常用指标不足以反映这些模型的真实性能",来自维也纳医 ...

  5. 关于“论文他引次数”、“检索号”及“ESI 高被引论文”的查询方法

    关于"论文他引次数"."检索号"及"ESI 高被引论文"的查询方法 (一)国内发表论文他引次数查询方法 为方便各单位查询国内发表论文的他引次 ...

  6. 导致论文高被引的关键因素

    导致论文高被引的关键因素 <科学之社会研究>杂志 2013 年第 6 期发表了美国亚利桑那大学社会学系两位女学者 Erin Leakey 和 Cindy L. Cain 的文章,Strai ...

  7. 中国人工智能公司CIMCAI全球港航人工智能高科技独角兽,集装箱视频20秒AI快速验箱,智慧船公司套箱加快箱流转中国人工智能公司

    中国人工智能公司CIMCAI全球港航人工智能高科技独角兽企业, 集装箱视频20秒AI快速验箱,智慧船公司套箱加快箱流转, 人工智能AI自动化箱信息识别+箱况检测+地点报备,箱位置箱况精确跟踪, 全球前 ...

  8. 每天2亿美元投入AI领域,1/10砸向自动驾驶,中国AI论文首超全欧洲 | 斯坦福全球AI年度报告...

    边策 十三 发自 凹非寺  量子位 报道 | 公众号 QbitAI 全球AI遇冷了吗?不存在的.中国AI发展怎么样?论文总数更上一层楼. 这就是一年一度权威报告<斯坦福2019全球AI报告> ...

  9. 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)

    谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...

最新文章

  1. “我在苹果商店下载了一个诈骗 App,损失 60 万美金!”
  2. VMware找不到父磁盘 父虚拟磁盘在子虚拟磁盘创建之后被修改过。父虚拟磁盘的内容 ID 与子虚拟磁盘中对应的父内容 ID 不匹配
  3. 数据分析与挖掘实战-窃电漏电用户的发现
  4. python本地编译器_Python学习札记(0)——Python开发环境搭载及推荐几款Python编译器...
  5. 55天 -算法 - poj4137百炼最小新整数 -贪心算法
  6. 中国“脑计划”研究正在悄然布局
  7. matlab绘制香农定理曲线,基于matla对香农公式仿真.doc
  8. Ubuntu18.04笔记本插入耳机没有声音 解决方案
  9. OL3矢量图层样式自定义
  10. 量子计算机需要的物理知识,量子计算机和物理学上的量子力学关系大吗?
  11. RMAN备份恢复性能优化--MAXSETSIZE, MAXPIECESIZE, FILESPERSET, SECTION SIZE等
  12. 耶鲁大学宣布推翻了进化论?科学界发文,“进化随机性”或被证伪
  13. 监控神器-普罗米修斯Prometheus的安装
  14. 美国Linux服务器系统增强安全的配置
  15. Win7自动关机重启指令
  16. 英语各句子成分的主要作用
  17. 企立方:拼多多如何提高曝光率
  18. 那些年啊 那些事——一个程序员的奋斗史 ——105
  19. 一文看懂BDTC 2018:探秘大数据新应用(附PPT下载)
  20. servlet的多种注册方式

热门文章

  1. 用python解“超速判断”题
  2. mysql linux改user_linux mysql误修改user表导致无法root用户登录,求大神帮助。-问答-阿里云开发者社区-阿里云...
  3. ## 使用MapReduce程序完成相关数据预处理
  4. GBDT与XGBoost区别与联系 GBDT近些年来更因为被用于构建搜索排序的机器学习模型而引起广泛的关注
  5. 概率密度与概率的关系
  6. 修改oracle数据库默认时间格式
  7. mysql执行计划中性能最差的是_面试中:mysql性能调优-执行计划explain
  8. Michael Jordan:人工智能研究的目标变了,不再是构建单个智能
  9. 2020 北京智源大会“云上”开幕, 中外顶尖学者畅想AI的下一个十年
  10. CSRankings全球排名第一的清华人工智能专业如何打造?听张钹院士娓娓道来