http://blog.itpub.net/29829936/viewspace-2600395/

论文基本信息

  • 文章名称:Deep learning
  • 作者:Yann LeCun, Yoshua Bengio& Geoffrey Hinton

作者简介

图丨Yann LeCun、Geoffrey Hinton、Yoshua Bengio和吴恩达

大神的个人状态

  • Yann LeCun: Facebook公司AI研究部门首席科学家;纽约大学数据科学中心的创始人;纽约大学计算机科学,神经科学,电气和计算机工程的白银教授(Silver Professor)。
  • Yoshua Bengio: 加拿大蒙特利尔大学计算机科学与应用学院的全职教授,蒙特利尔学习算法研究所(MILA)的负责人;CIFAR机器和大脑项目联合负责人;统计学习算法加拿大研究主席。
  • Geoffrey Hinton:由于妻子病重,目前已停止工作。

研究方向

  • Yann LeCun:机器学习、计算机视觉、机器人、计算神经科学。同时对数据压缩、数字图书馆、计算物理和所有机器学习的应用(视觉、语音、语言、文档理解、数据挖掘、生物信息)感兴趣。
  • Yoshua Bengio:致力于研究产生智能的学习原理。他带领了一个庞大的研究生和博士后团队。他的研究工作被广泛引用(截至2017年9月谷歌学术统计超过8万次引用,H指数101)
  • Geoffrey Hinton:深度学习、神经网络等。

大神个人网站

  • Yann LeCun:http://yann.lecun.com/
  • Yoshua Bengio:http://www.iro.umontreal.ca/~bengioy/yoshua_en/index.html
  • Geoffrey Hinton:http://www.cs.toronto.edu/~hinton/

特别说明

在全世界范围内,Yann LeCun、Geoffrey Hinton和Yoshua Bengio 三人被公认是深度学习领域“三驾马车”。对于致力于发展人工智能的企业来说,他们三人的地位相当于三国时代的“卧龙凤雏”——得一便可得天下。

为纪念人工智能提出60周年,三驾马车首次合作了这篇综述文章“Deep Learning”。该文章是深度学习三驾马车共同撰写的深度学习综述性文章,发表于Nature。作为该领域的开创性先驱和领头人,对截至2015年的深度学习的发展、状态及未来做了系统性梳理和总结。

在深度学习领域,该文章无论是站的高度还是分析的深度,均为世界顶级的代表作,正本清源,开宗明义,不可不读。

摘要

深度学习可以使具有多个处理层的计算模型实现对多层次抽取的数据表征的学习。这些方法显著提升了多个领域的极限性能,包括语音识别、视觉目标识别、目标检测和许多其它领域,例如药物发现和基因领域等。深度学习能够发现大数据中的复杂结构,利用反向传播算指导机器如何从前一层网络计算表征,从而改变每一层的内部参数。深度卷积网络在图像、视频、语音和音频等方面的处理能力上带来了突破性进展。循环神经网络在序列数据,如文本和语音方面的处理上,已经表现亮眼。

文章结构

精华内容

1.深度学习的核心特色与基本定义

深度学习是一种表征学习(Representation learning)方法。把原始数据通过一些简单的可是非线性的多层次表征模型转变成为更高层次的,更加抽象的表达。通过足够多这样的转换组合,很复杂的函数也可以被学习。

深度学习的核心特色是这些多层结构中的特征不是工程师手工设计的,而是通过一个通用目的的学习过程从数据中学习的。

2.深度学习在监督学习中应用的主要过程及优势

描述了深度学习实现有监督类学习的过程,比如建立一个系统对图像进行分类:

1)收集大量数据集,标注图像中的目标;

2)构建深度学习网络,以向量的形式表示学习到的内容;

3)计算一个目标函数,衡量类别的输出分数和期望分数之间的误差(或距离);

4)通过自动修改内部的可调节的参数(通常被称为权值),优化网络性能;

5)大部分从业者都使用一种叫做随机梯度下降(SGD)的算法进行权值调节,相比于其他优化技术,SGD的速度让人惊奇;

6)训练结束后,再通过不同于优化训练的数据样本测试系统的泛化能力,即对于未训练过的新样本的识别能力。

  • 图a:多层神经网络对输入空间整合,使得数据线性可分;
  • 图b:链式法则推导过程,展示了x和y的两个微笑变化是如何组合在一起的
  • 图c:具有两个隐层和一个输出层的神经网络的前向传播过程
  • 图d:对比输出与正确答案的误差之后,神经网络的反向传播过程

深度网络与传统机器学习的重要区别:传统机器学习做分类的时候需要大量的先验经验和领域知识对分类特征进行设计,但是又很难保证特征的泛化能力。而深度学习可以通过网络来拟合特征可以避免这种问题,因为深度学习通过多层结构从原始数据中得到的特征可以同时提高特征的区分选择性和特征不变形,而且可微小细节的特征进行区分,如从白色的狼中区分出萨摩耶犬,同时忽略背景、亮度、姿势等特征。

3.反向传播训练方法:从被忽视到火爆

反向传播算法的核心算法是用链式求导法则,即目标函数对于输出层的导数(或梯度),通过该层向前一层求导实现,如此递延一直传递到第一层(输入层)。最后将特征传递给一个非线性激活函数,可以得到分类的结果。当前最流行的非线性激活函数是ReLU,比起之前流行的tanh和sigmoid激活函数,ReLU的学习速度更快,可以让深度网络直接进行学习,而不需要做预训练(pre-train)。

反向传播方法其实在20世纪80年代就易用被用到多层网络的训练之中,即随机梯度下降算法。但是直到2009年前后才被重新广泛使用,这中间主要有两个问题的突破。

  • 一个是人们当时普遍认为反向传播算法使用的梯度下降会使整个优化陷入局部极小困境,但实践中发现,系统并没有出现局部极小问题,而是总能够得到差不多的解,尤其是在数据量很大的时候。
  • 二是GPU的出现,使得训练过程得到了10倍或20倍的加速。

4.卷积神经网络的4个关键想法

局部连接、权值共享、池化以及多网络层的使用

  • 局部连接:每一层图像的局部块,被一个叫做卷积的滤波器权值映射到特征图中;
  • 权值共享:每一层的特征图使用的过滤器是相同的,不同层使用不同的滤波器;
  • 池化:卷积层的作用是探测上一层特征的局部连接,然而池化层的作用是在语义上把相似的特征合并起来,池化操作让这些特征对各种变化具有更好的鲁棒性;
  • 多层网络的使用:通过多层网络实现对低级特征的组合,转换为高级的特征。

卷积网络中的卷积和池化层灵感来源于视觉神经科学中的简单细胞和复杂细胞。这种细胞就是多层结构的视觉回路,比如猴子的视觉神经中160个神经元变化与卷积网络相似。卷积神经网络有神经认知的根源,他们的架构有点相似。

近年来,卷积神经网络被广泛应用于检测、分割、物体识别以及图像的各个领域。其中人脸识别是最重要的应用。值得一提的是,卷积神经网络可以在像素级别对图像进行识别。

5.分布式特征表示与语言处理

对比传统语言处理方法的2个巨大(指数级)优势

深度学习使用分布式特征表示(distributed representations),与传统学习算法相比具有两个极大的优势:

1)分布式特征表示能够很好的泛化能力,以适应新学习到的特征值组合;

2)深度网络的组合多层进行表示,可以更加容易的预测目标输出,这是第二个巨大的优势,即指数级的深度。

这种特性的一个经典场景就是语言处理,比如将本地文本的内容作为输入,训练神经网络来预测句子的下一个单词。传统方法是基于逻辑启发的,用符号表示实体,再用逻辑进行推理,这就需要对推理规则进行大量的手工设计,工作量巨大。而深度学习是基于神经网络的认知,可以利用大量的活动载体、权值矩阵和标量的非线性和,建立语义的向量空间,实现简单容易、具有“直觉”推理能力的语言处理效果。

6.循环神经网络

适用于序列数据处理的方法

涉及序列输入的任务,比如语音和语言,利用RNNs能获得更好的效果,例如用于语言翻译。RNNs一旦展开,可以看作一个所有层共享同样权值的深度前馈神经网络。虽然目的是学习长期的依赖性,但理论和经验的证据表明很难学习并长期保存信息。

为了解决这个问题,一种采用了特殊隐式单元的LSTM(long-short-term memory networks)被提出,其自然行为便是长期保存输入。LSTM增加了一种称作记忆细胞的特殊单元,类似累加器和门控神经元:这个神经元在下一个时间步长中通过一个权值连接到自身,拷贝自身状态的真实值和累积的外部信号,这种自连接是由另一个单元(遗忘门)学习并决定何时清除记忆内容的乘法门控制的。

LSTM网络随后被证明传统的RNNs更加有效,尤其当每一个时间步长内有若干层时,整个语音识别系统能够完全一致的将声学转录为字符序列。目前LSTM网络或者相关的门控单元同样用于编码和编码网络,并且在机器翻译中表现良好。

7.深度学习的未来展望

无监督学习、增强学习、自然语言理解、复杂推理与表示学习结合

本文中主要讨论了已取得巨大成功的有监督学习,但是作者们更加期待的方向在以下几个方面:

1)无监督学习

2)CNN+RNN+增强学习=主动视觉学习系统

3)自然语言理解将被深度学习深刻的改变,深度学习将更好地理解整个文档

4)AI未来的巨大进步将来自那些结合了复杂推理和表示学习的系统

8.具有重要意义的引用文献

世界顶级AI大神综述深度学习相关推荐

  1. python小白逆袭大神课程心得_python小白逆袭大神(深度学习7日训练营)——心得体会...

    使用过程及心得 百度飞桨(PaddlePaddle)是国内唯一功能完备的开源深度学习平台,自Paddle Fluid v1.0发布以来,飞桨陆续在开发.训练和部署全流程上进行全方面的升级. 1.在这次 ...

  2. 四位顶级AI大牛纵论:深度学习和大数据结合的红利还能持续多久?

    这轮 AI 热潮的很大一个特点就是底层技术方面在打通,虽然说过去对通用人工智能大家曾经有过很高的期望,但一直没有落地.这次,深度学习给大家带来了很多机会,使得我们在底层技术方面有了越来越多的共性.然而 ...

  3. 2020上半年收集到的优质AI文章 – 机器学习和深度学习

    2020上半年收集到的优质AI文章 – 机器学习和深度学习 一文读懂机器学习 机器学习应补充哪些数学基础? 简单梳理一下机器学习可解释性(Interpretability) 什么是CNN?机器学习入门 ...

  4. 【AI初识境】深度学习中常用的损失函数有哪些?

    这是专栏<AI初识境>的第11篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 今天来说说深度学习中常见的损失函数(loss),覆盖分类,回归任务以及生成对抗网络,有了目 ...

  5. 【AI初识境】深度学习模型评估,从图像分类到生成模型

    文章首发于微信公众号<有三AI> [AI初识境]深度学习模型评估,从图像分类到生成模型 这是<AI初识境>第10篇,这次我们说说深度学习模型常用的评价指标.所谓初识,就是对相关 ...

  6. 创业第一天,有三AI扔出了深度学习的150多篇文章和10多个专栏

    文/编辑 | 言有三 在这篇文章中,有三跟大家来聊一下有三AI和如何学习深度学习这件事儿. 1 概述 自我介绍 "有三AI"创始人网名言有三,本名龙鹏,本科就读于华中科技大学,硕士 ...

  7. 8月图书畅销榜:经典书霸屏,AI持续火爆《深度学习》拔头筹

    不知不觉又开始了元气满满的9月,开学的季节,小编整理了8月计算机类异步图书在电商平台的销售数据,重磅推出图书的销量排行榜单(数据来源于京东网.当当网的计算机类图书销量排行). 榜单分为畅销榜.新书榜. ...

  8. 与AI大神贾扬清、知乎CTO李大海的对话实录

    来源:AI科技评论     作者 | 陈彩娴.蒋宝尚    编辑 | 青 暮 算法工程师不仅需要具备牛逼的算法能力,还要精通业务.善于沟通?(小本子赶紧记下来!) 8月23日晚,知乎直播"A ...

  9. 谷歌新 AI 实验室主管 Hugo 深度学习教程:神经网络、CV、NLP 难点解析

     谷歌新 AI 实验室主管 Hugo 深度学习教程:神经网络.CV.NLP 难点解析 [日期:2016-12-16] 来源:新智元  作者: [字体:大 中 小]  11月22日,谷歌在蒙特利尔的 ...

最新文章

  1. BERT面向语言理解的深度双向变换预训练
  2. linux-RPM安装
  3. 50岁,他希望自己还可以写代码
  4. 【CV】使用Keras和迁移学习从人脸图像中预测体重指数BMI
  5. KDD 2020 开源论文 | GPT-GNN:图神经网络的生成式预训练
  6. jboss eap_HawtIO在JBoss EAP上(第二部分)
  7. Thread类和Runnable接口
  8. DES和AES加密:指定键的大小对于此算法无效
  9. mysql 命令限制_MySQL 命令总结
  10. cuda Synchronization
  11. andriod连接mysql测试_android开发 MyEclipse下测试连接MySQL数据库
  12. 系统引导过程总体介绍
  13. CSS世界-第一、二章
  14. 【爬虫】花瓣图片爬虫,Python图片采集下载源码
  15. html5 讯飞离线语音包,讯飞输入法离线语音怎么用?讯飞输入法离线语音开启方法...
  16. Linux GDB的实现原理
  17. bzoj 1026 //1026: [SCOI2009]windy数
  18. PMO和PM有哪些区别 谁管谁
  19. docker-compose 部署 php + nginx + mysql + redis
  20. linux查看端口pvid,交换机端口及常见问题定位(二)

热门文章

  1. java 中线程的状态
  2. 《预训练周刊》第34期:使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...
  3. 吕乐:医学影像学者的医者仁心 | 智源专访
  4. 国际顶级学术会议SIGIR 2020开幕在即,重量级嘉宾带你窥探信息检索前沿
  5. 热度直逼TensorFlow的深度学习框架,我用它画下女朋友最美的脸
  6. 这些哭笑不得的情景,每个程序员都可能面对
  7. LaTeX 第五课:数学公式排版
  8. 左手程序员,右手作家:你必须会的Jupyter Notebook
  9. 【AAAI2022】多任务推荐中的跨任务知识提炼
  10. 清华大学《大数据系统基础A/B》课程实践项目宣讲会来了