文献翻译 Deep Learning

该篇文章为18年图灵奖得主，被誉为“深度学习之父”的Lecun、Bengio、Hinton三位业界巨擘共同发表在Nature上的关于深度学习的综述，DOI：10.1038/nature14539。笔者读后受益匪浅，尝试做一翻译，方便自己理解和回味。由于原文篇幅较长，主要对原文中历史、概念和理论进行翻译，原文里一些举例内容并没有全部翻译。此外由于笔者能力有限，其中若有错误之处还请各位包涵和指出。

摘要：深度学习允许具有多层结构的计算模型学习具有多抽象层级的数据表征。这些方法极大提高了语音识别、图像目标识别、目标检测及药物研发、基因组学等领域的技术水平。通过使用反向传播算法，深度学习能发掘大数据集的复杂结构并指导机器如何修改其内部参数，每层的参数用于通过先前层的表征计算本层表征。深度卷积网络在图像、视频、语音和音频处理方面取得突破进展，而递归网络则关注如文本语音等的连续数据。

机器学习技术促进现代社会许多领域的发展：从网络搜索到社交媒体信息过滤，再到电商网站的推荐，其也被应用于越来越多的消费产品中，如相机及智能手机。机器学习系统被用于识别图像中的目标，将语音转为文本，根据用户兴趣匹配新闻、帖子、产品，以及筛选相关搜索结果等。近来这些应用领域越来越多地使用一类叫做深度学习的技术。
传统的机器学习技术在处理原始形式的数据方面能力有限。几十年来，构建一个模式识别或机器学习系统需要详细的工程设计或大量领域专业知识来设计特征提取器，从而将原始数据(如图像中的像素值)转化为学习系统(通常为分类器)能够检测或分类的合适的内涵表征或特征向量。
表示学习(Representation learning)是允许机器输入原始数据并从中自动挖掘检测或分类所需表征的一系列方法。深度学习方法是具有多层次表征的表示学习，其通过组合简单的非线性模块实现，每个模块将一个级别的表征转换为更抽象层级的表征。通过足够多的这种模块组合，将能学习非常复杂的函数。对分类任务，更高层的表征能放大输入中对分类更重要的方面并抑制不相关的差异。深度学习最关键的一点在于，各层特征不是人类工程师设计的，而是通过通用的学习程序从数据中学习来的。
深度学习在解决多年来阻碍人工智能最佳尝试的问题上取得了重要进展。其被证实善于发掘高维数据中的复杂结构，因此适用于科研、商业、政府等很多领域。
我们认为在不久的未来，由于只需要很少的人工工程，深度学习可以很容易地从算力和数据量的增长中获益，从而将取得更大的成功。目前深度学习领域发展的新学习算法及结构将加速这一进程。

监督学习（supervised learning）

监督学习是机器学习(无论是否是深度学习)最一般的形式。假设我们要建立一个可以分类包含房子、汽车、人、宠物的图像的系统。我们首先收集大量相应图像的数据集并为其标注类别。接着在训练阶段，将图像输入机器并输出每个类别的分数的向量。我们希望所期望的类别在所有类别中具有最高分数，当然这不太可能在训练前发生。我们计算一个反应输出分数和期望分数模式间误差或距离的目标函数。接着机器修正内部可调参数以减少这一误差。这些可调参数通常被叫做权重(weights)。一个典型的深度学习系统通常具有数亿个可调参数并使用数亿个含标签样本用于训练。
为了正确地调整权重向量，学习算法为一个权重计算对于误差的梯度（梯度反映了权重轻微变化后误差的变化），在梯度向量相反的方向上调整权重。
目标函数是对所有训练样本的平均值，可以看做在权重值对应的高维空间中的地形图，负梯度方向反映了该地形图中朝着最小值的最陡峭的方向，也就是说沿方向输出平均误差会下降。
实际上大多数工作采用被称为随机梯度下降(stochasticgradient descent ,SGD)的方法。每次输入所有样本集中的少量样本，计算输出及误差，基于这些样本计算平均梯度，及调整权重。多次重复该过程指导目标函数平均值不再下降。该方法被称为随机是因为每组小样本给出了所有样本的平均梯度的含噪估计。相比更复杂的优化方法，这一简单过程能更快找到一组较优权重。训练后，将使用一组不同的数据集(测试集)来测试系统性能。这是为了测试系统的泛化性能(generalization ability) ,即系统对于训练集中没有出现的新输入正确回答的能力。
目前多数机器学习的实际应用在手工设计的特征上使用线性分类器。典型的线性二分类分类器计算特征向量的加权和，如果加权和大于一个阈值。输入将被分成特定的一类。
20世纪60年代以来，我们就知道线性分类器只能将输入空间分割成很简单的区域，即超平面分割的半空间。但图像、语音识别之类的问题要求输入-输出函数对输入的不相关变化不敏感(如物体的位置、方向及光照条件变化，或语音的音调和口音变化)，但同时对特定的微小差异敏感(如白狼和萨摩耶的差异)。在像素级上，两个同类事物在不同姿势或不同环境下的图像可能非常不同，反而不同类事物在相似位置或背景下会很相似。线性分类器或其他浅层分类器可能无法在原始的像素级上区分后者或正确归类前者。这就要求浅层分类器需要好的特征提取器来解决选择性-不变性的矛盾(selectivity–invariance dilemma)：即生成对图像中重要方面具有选择性，但对不相关部分不变的表征。为了使分类器更强，可以使用通用的非线性特征，如核方法，但高斯核等通用特征在原理训练样本处泛化能力不佳。传统的解决方法是人工设计及更好的特征提取器，这要求较高的工程技能和专业知识。如果能使用通用学习程序自动学习好的特征，将能避免上述问题。这是深度学习的关键优势。
深度学习结构常是许多简单模块的多层堆叠，其中多数模块进行非线性输入输出映射，且全部(或多数)模块需要进行学习。堆叠中每个模块对输入的转换增强了表征的选择性和不变性，从而实现极其复杂的功能。

训练多层结构的反向传播算法

模式识别研究的早期开始，研究者就致力于用可训练的多层网络取代人工设计的特征。尽管看似简单，但直到20世纪80年代解决方案才被广泛理解。事实证明，多层结构可以通过简单的随机梯度下降来训练。只要模块是对其输入和内部参数的光滑函数(smooth function)，就可以使用反向传播计算梯度。20世纪70年代到80年代几个团队对立发现该想法是可行且有效的。
反向传播算法在计算一个函数对多层模块结构的参数的梯度时，不过就是应用求导链式法则。关键是目标对于模块输入的倒数(梯度)能够通过对模块输出(或后续模块的输入)的梯度方向传播求得。反向传播公式可以被重复用于计算各个模块的梯度，从网络顶层输出到底层输入。计算出梯度后，即可计算各模块对权重的梯度。
很多深度学习的应用使用前馈网络结构(图1)，其学习将固定尺寸的输入映射到固定尺寸的输出。从一层到一层的，一组单元计算从前一层输入来的输入的加权和并将结果传递给非线性函数。目前最常用的非线性函数是线性整流单元(Rectified linearunit，ReLU)，其是一个简单的半波整流 $f(x)=max(z,0)$ 。过去几十年里，神经网络使用过更平滑的非线性函数，如 $tanh(z)$ 。但ReLU在多层网络中的学习通常要快得多，允许在没有无监督预训练的情况下训练深度有监督网络。输入输出层以外的单元通常被称为隐藏单元(Hidden units)。隐藏层的作用可以看是做对输入进行非线性变化从而使最后一层各类别线性可分。
20世纪90年代末，神经网络和方向传播很大程度上被机器学习界放弃。彼时普遍认为在几乎没有先验知识的情况下学习有用的、多阶段的特征提取器是不可行的。特别是人们普遍认为简单的梯度下降容易陷入较差的的局部最优(poor local minima)，之后的权重修正将难以减少平均误差。
实际上，大型网络中很少陷入较差的局部最优。无论初始条件如何，系统几乎总能得到性能相近的解。最近的理论和实验结果强烈表明局部最小值一般不是一个严重问题。相反，目标函数地形图(landscape)中有大量梯度为0的鞍点。分析似乎表明多数鞍点只在少数方向上下凹，但其对应目标函数值都相似。因此算法最终停留在哪个点将不是大的问题。
2006年CIFAR进行的一组研究重新激起了人们对深度前馈网络的关注。研究采用无监督学习过程在无需标签数据的情况下创建特征提取器。每层中特征提取器的学习目标是重构或模拟下层特征提取器(或原始数据)的活动。使用重构目标逐步预训练若干层更复杂的特征提取器，从而使网络的权重被初始化为更合理的值。之后在网络的最顶层添加输出单元，整个深度系统就可以通过标准的反向传播进行微调(fine-tuned)。这一工作在手写数字识别和行人检测上效果十分优秀，特别是在数据标签匮乏的情况下。
这一预训练方法最初主要应用于语音识别，GPU的出现使这一应用成为可能并使研究者以10到20倍的速度训练网络。2009年该方法被用于将声波中提取的一组短时间窗的系数映射到各种语音碎片能被窗口中心帧表示的概率。其打破了使用小词汇库的标准语音识别基准测试的纪录，并很快打破在更大词汇库下的纪录。到2012年，2009提出的这一深度网络被许多主流语音研究团队进一步发展，并已经在安卓系统中得到应用。对于较小的数据集，无监督预训练有助于防止过拟合，从而在标签数据较少或在迁移学习源域数据较多而目标域数据较少的情况下取得更好的泛化性能。当深度学习重新成为热点，这种预训练就只在小数据时才需要了。
但是一种特殊的深度前馈网络比相邻层全连接的网络更好训练且泛化性更强，即卷积神经网络(ConvNet)。在神经网络不受关注时期，距安居网络也取得了许多实际成功，最近更是在机器视觉领域被广泛接受。

图1：多层神经网络及反向传播。a，多层神经网络对输入空间进行变化使得各类数据线性可分(如红线和蓝线上的样例)。可以注意到输入空间中规则的网格被隐藏单元转化。该示意图只包含2个输入节点、2个隐藏节点和1个输出节点，但实际用于目标识别或自然语言处理的网络包含数万以至数十万的节点。b，求导链式法则，表明两个微小的影响( $x$ 变化对 $y$ ，及 $y$ 变化对 $z$ )如何进行组合。 $x$ 的微小变化 $\Delta x$ 首先乘以 $\partial y/\partial x$ 转变为 $y$ 的微小变化 $\Delta y$ 。类似的，变化 $\Delta y$ 导致了 $z$ 的变化 $\Delta z$ 。将前一个公式代入后者即得到求导的链式法则——变化 $\Delta x$ 通过乘以 $\partial y/\partial x$ 和 $\partial z/\partial y$ 导致变化 $\Delta z$ 。当 $x$ ， $y$ ， $z$ 为向量时依然成立(导数变成对应的)。c，用于计算具有2个隐藏层和1个输出层的网络的前向传播的公式，每个公式的构成的模块可以将梯度反向传播。对每一层，首先对上一层输出加权求和得到各单元的总输入 $z$ 。接着 $z$ 通过非线性函数 $f(\cdot )$ 得到各单元的输出。出于简化，忽略了偏置项。神经网络使用的非线性函数包括：近年常使用的非线性整流单元(ReLU) $f(z)=max(0,z)$ ; 更传统的Sigmoid $f(z)=(exp(z)-exp(-z))/(exp(z)+exp(z))$ ; 以及逻辑斯蒂函数 logistic $f(z)=1/(1+exp(-z))$ 。d，计算反向传播的公式。在每个隐藏层计算损失对各节点输出的导数，即损失对前一层节点总输入的导数的加权和。之后将损失对输出的导数乘以非线性函数的梯度得到损失对输入的导数。对输出层，损失对节点输出的导数由损失函数的微分获得。图中为 $y_l-t_l$ ，因为损失函数设置为 $0.5(y_l-t_l)^2$ ， $t_l$ 为目标值。一旦获取了 $\partial E/\partial z_k$ ，与下层中单元 j 连接的权重 $w_{jk}$ 的导数就是 $y_j\partial E/ \partial z_k$ 。

卷积神经网络

卷积网络被设计用于处理具有多数组形式(Multiple arrarys)的数据，如包含3个色彩通道的2维像素数组组成的彩色图像。许多数据都具有多数组的形式：1维信号及序列，如自然语言；2为图像或音频频图谱；3维视频或立体图。卷积网络在利用自然信号特性时有4个关键要素：局部连接(locol connnections)、共享权值(shared weights)、池化(pooling)和多层结构(many layers)。
如图2，典型的卷积网络结构有一系列阶段组成。前几个阶段由卷积层和池化层组成。卷积层中的单元被构造成特征图(feature map)的形式，每个单元与之前层的特征图的局部块通过一系列被称为滤波器组(filter bank)的权重相连接。之后该局部加权和经过非线性变换，如ReLU。一个特征图中的所有单元共享相同的滤波器组。一层中的不同特征图采用不同的滤波器组。采用这一结构的原因有两点。第一，在图片这样的数组数据中，局部区域的值通常高度相关，从而形成具区分性且易检测到的的局部图案(local motifs)。第二，对于图像或其他信号，局部数据的统计信息对位置具有不变性。换言之，如果一类图像中会出现某种特定图案，那它可以出现在图像的任何位置。因此不同位置的单元可以共享相同权值从而在数组不同位置检测相同图案。从数学的角度来说，对特征图的滤波操作正是离散卷积，所以网络被命名为卷积网络。
卷积层的作用是实现与前一层特征的局部连接及探测，而池化层的作用是将语义相似(semantically similar)的特征融合为一个。由于构成特定图案的特征的相对位置可能不同，可以将每个特征的位置粗粒化(coarse-graining)以可靠地检测图案。一种典型的池化单元计算一个(或几个)特征图中局部区块的最大值。邻近的池化单元的输入区块间隔一行或一列以上，从而减少表征维度，并产生对微小位移或畸变的不变性。将两到三个卷积层、非线性函数及池化层进行堆叠，再连接全连接层(就构成了卷积神经网络)。卷积网络的反向传播和通常的深度网络一样简单，可以训练所有滤波器组的权重。
深度神经网络还利用许多自然信号具有层次组合(compositional hierarchies)的特性，即高层次的特征可以有低层次特征组合得到。如图像中，边缘组合形成图案，团组合形成部件，部件组合形成目标对象。通过使用池化，前一层要素的位置或表现变化将不会对表征产生大的影响。
卷积网络中卷积层和池化层是受视觉神经学中简单细胞和复杂细胞的概念启发产生的，而其整体结构则受视觉皮层神经通路LGN–V1–V2–V4–IT的层次结构启发。当给卷积神经网络模型和猴子展示相同的图片时，神经网络中高层单元的激活能解释猴子下颞叶皮质中160个随机神经元组合中一半神经元的变化。卷积网络源于神经认知机(neocognitron)，其结构类似，但不具有像反向传播这样的端对端的监督学习算法。一个简单的被称为延时神经网络的1维卷积网络曾被用于识别音素和简单单词。
以用于语音识别和文本阅读的延时神经网络开始，20实际90年代来，卷积神经网络获得了大量应用。文本阅读系统将了一个卷积网络和实现语言约束的概率模型联合训练。到20实际90年代末，这一系统阅读过美国超过10%的支票。微软也开发过过大量基于卷积网络的视觉符号识别和手写识别系统。20世纪90年代初，卷积网络也被用于自然图像中的目标检测(object detection)。

图2 卷积网络的内部。对于萨摩耶的RGB图像(红、绿、蓝三通道)输入，典型的卷积网络每一层的输出。每个矩形图像是在图像某个位置检测到的一个学习到的特征对应的特征图。信息自下向上传递，较低级别的特征充当定向边缘检测器(oriented edge detectors)，最终网络输出对每一类别的分数。

基于深度卷积网络的图像理解

21世纪以来卷积网络被成功用于图像中目标及区域的检测、分割和识别。这些都是具有相对丰富的标签数据的任务。如交通标志的识别，生物图像特别是神经组的分割，及自然图像中的人脸，文本，行人和人体的检测。最近卷积神经网络的一个重要成功是人脸识别。
重要的是，图像可以在像素级进行标注，这已经在一些技术中得到应用，包括自动机器人和自动驾驶汽车。Mobiileye和NVIDIA等公司也在即将推出的汽车视觉系统中使用基于卷积网络的方法。其他重要的应用包括自然语言理解和语音识别。
尽管取得了这些成果，在2012年ImageNet竞赛前卷积网络仍然在很大程度上不被主流及其学习和机器视觉界接受。深度卷积网络在从互联网获得的包含百万级图片和1000类的数据集上取得了惊人的结果，错误率只有原本最佳方法的一半。这一成功得益于高效使用GPU、ReLU、一种被称为dropout的新正则化技术及通过变形现有训练样本得到更多训练样本的技术。这一成功带来了机器视觉领域的革命。卷积网络如今是几乎所有识别和检测任务的最优方法，在某些任务上接近人类表现。最近一个惊人的演示结合卷积网络和递归网络以生成图像注解(图3)。
最近的卷积网络结构包含10到20层ReLU，数亿的权重和数十亿的单元连接。两年前训练如此庞大的网络需要数周，而入及硬件、软件及并行算法的进步将训练时间缩短到几个小时。基于卷积网络的视觉系统已经吸引多数主流技术公司及数量大量增长的初创公司启动研发项目，开发基于卷积网络的图像理解产品及服务。卷积网络容易在芯片及可编程门阵列上进行高效的硬件实现。许多公司正在开发卷积网络芯片，以在智能手机、相机、机器人、自动驾驶汽车上实现实时视觉应用。

图3 从图像到文本。由RNN生成的说明文字。将CNN提取的图像表征作为额外输入，训练RNN将图像的高层表征转换为说明文字。通过给RNN赋予在生成每个词时关注输入图像不同局部区域的能力(越亮说明越被关注)，可以更好地将图像翻译成文字。

分布式表征及语言处理

深度学习理论表明，深度网络比不使用分布式表征的经典学习算法有两个不同的指数级优势[21]。这些优势来自于组合的强大效果并依赖于底层数据生成分布的合适的组合结构。第一是通过学习分布式表征能带来对训练过程中没有出现过的的特征值的组合的泛化能力(如n个二值特征具有 $2^n$ 种组合)。第二是深度网络中各层表征的组合带来了带来另一个指数级优势优势(深度上的指数)。
多层神经网络的隐藏层学习网络输入的表征以使网络容易预测目标输出。训练一个网络通过句子中的前几个词的局部文本来预测下一个词可以很好的体现这一点。句子中的每个词作为一个N分之一向量输入网络，即向量中一个元素为1其余为0。在第一层里每个词创建了一个不同的激活模式，或称为词向量(如图4)。在语言模型中，网络的其余层将输入词向量转化为输出词向量以预测下一个词，这可以用于预测词库中的任何词的概率。网络学习包含许多积极成分(active component)的词向量，其每个成分可以被认为是词的独立特征，如同在学习符号的分布式表征时所阐述的内容[27]。这些语义特征没有显式地体现在输入中。他们是在学习过程中通过将输入输出符号的结构化关系分解为多个'微观规则'(Micro-rules)而被挖掘出的。当词序列来自真实文本中的大规模语料库且独立的微观规则不可靠时，词向量的学习效果依然良好。例如，当进行预测新闻中的下一个词的训练时，对于“星期二”和“星期三”或“瑞典”和“挪威”学习到的词向量很相似。这样的表征被称为分布式表征，因为其元素(特征)并不相互独立且其许多配置和观测到数据的变化一致。这些词向量由学习到的特征组成而不是由专家提前确定。从文本中学习词的向量表示在自然语言应用中被广泛使用。
表征问题是逻辑启发范式(logic-inspired)和神经网络启发范式(neural-network-inspired paradigms)在认知问题上争论的核心。逻辑启发范式中，一个符号实例的唯一属性是与其他符号实例相同或不同。其不具有和其使用相关的内在结构。为了用符号进行推理，其必须与经过明智选择的推理规则中的变量绑定。相反，神经网络使用大量的活动向量、大规模权重矩阵和大量分线性函数来实现作为简单常识推理基础的快速直觉推理(intuitive inference)。
在语言神经网络模型诞生之前，语言统计模型的标准方法并不使用分布式表征：其使用对最大长度为N的较短符号序列(N-grams)的出现频率的计数。可能的N-grams数量大约为 $V^N$ ，其中V是词汇库的大小，因此需要非常多的训练语料。N-gram将每个单词视作原子单元，因此无法对语义相关的但词序列进行泛化。但神经网络模型则可以，因为其将每个词与具有实数值的特征向量相关联，语义相关的词在向量空间中将彼此接近(图4)。

递归神经网络(Recurrent neural network)

当反向传播被提出后，其最激动人心的应用是训练递归神经网络(RNNs)。对于包含序列输入的任务，如语言和语音，使用RNN通常是更好的选择。RNN一次处理输入序列的一个元素，再其隐藏单元中保存“状态向量”(state vector)以隐式地保存序列中所有过去元素的历史信息。我们可以把不同离散时间点的隐藏单元的输出看做多层深度网络不同神经元的输出，这样如何进行RNN的反向传播就很清楚了。
RNN是非常强大的动态系统，但其训练是一个问题。因为梯度在每个时间点上反向传播时都会增长或收缩，经过多个时间点后，他们会爆炸或收缩(explode or vanish)。
得益于其结构和训练方法的进步，RNN被证明在预测文本的下一个字符或序列的下一个单词时表现良好，但其也可以用于其他更复杂的任务。比如，在逐词阅读一个英语句子后，一个英语编码器网络的隐含单元的最终的状态向量就是该句子表达含义的好的表征。这一含义向量可以用作联合训练一个法语解码器网络的初始隐藏状态(或者作为额外输入)，以使该解码器输出对应法语翻译的第一个词的概率分布。通过该概率分布选择具体的第一个词后将其作为解码器的输入继而可以得到翻译中第二个词的概率分布，以此类推指导选择的是句号。总体来说，这个过程就是根据依赖英语句子的概率分布生成法语序列中的单词。这种十分朴素的机器翻译方法很快就与最先进的方法形成竞争，这也引发了人们强烈怀疑对于理解句子是否需要通过推理规则得到内部符号表达(internal symbolic expressions)。RNN更符合日常推理时同时涉及多个有助于得出结论的类比的观点。
除了把法语句子的含义翻译成英语，也可以学习把图像的含义翻译成英语句子(图3)。此时使用深度卷积网络作为编码器将像素点在最后的隐藏层转化为活动向量。而编码器与机器翻译及神经语言模型类似采用RNN。进来对此类系统的研究兴趣得到快速增长。
RNN在时间上展开后可以看做参数共享的很深的前馈网络(图5)。尽管RNN的主要目的就是学习长时间依赖(long-term dependencies)的关系，理论和实验证据都表明学习存储非常长时间的信息仍然很困难。
为了解决这一问题，一个想法是用显示记忆空间拓展网络。最早的采用此思路的是长短时记忆网络(Long short-term memory, LSTM)，其使用特殊的能长时间记忆输入的隐藏单元。一种称为记忆细胞(memory cell)的特殊单元表现类似相累加器或门控漏神经元(gated leaky neuron)：其在下一个时间点与自身通过权重1连接，即其复制自己的实数值状态并与外部信号累加，这种自我连接与另一个学习决定何时清楚记忆的单元相乘来进行门控。
LSTM网络被证实比传统RNN更有效，特别是每个时间点都有多层时，使整个语音识别系统弄够实现声音道字符序列的转换。LSTM及类似的门控单元如今也被用于编码器和解码器在机器翻译方面表现优异。
在过去一年里，一些学者提出不同增强RNN记忆模块的方案。方案包括使用“类磁带”(tape-like)存储从而允许RNN选择读取或写入的神经图灵机(Neural Turing Machine);通过关联存储(associative memory)增强常规网络的记忆网络(Memory network)。记忆网络在标准的问答基准测试中表现出杰出的性能，其需要记忆故事并在之后回答相应问题。
除了简单的记忆，神经图灵机和极意网络还可被用于通常要求推理和符号运算的任务。神经图灵机可以被教会“算法”。

深度学习的未来

无监督学习在重燃学界对深度学习的兴趣上起了重要作用，但之后监督学习的成功掩盖了其光芒。尽管在该篇综述中也没有重点关注无监督学习，但我们预期无监督学习在未来会变得更重要。人类和动物的学习很大程度是无监督学习：我们观察世界来发现其结构，而不是通过被告知每个事物的名字。
人类视觉是一个主动过程，其使用小的、高分辨率的中心和大的低分辨率的周围来智能地、特定于任务地对目标阵列进行采样。我们预计未来视觉领域的许多进步来自于经过端对端训练的结合卷积网络和递归网络并使用增强学习来决定看哪里的系统。结合深度学习和强化学习的系统还处于起步阶段，但其在分类任务上已经优于被动视觉系统，并且在学习进行视频游戏上产生令人印象深刻的结果。
自然语言理解是深度学习另一个可能在未来产生重大影响的领域。我们预期使用RNN理解句子或整个文档的系统在学习过选择性关注某一部分的策略后性能会更好。
最后，通过将表征学习与复杂推理相结合的系统将为人工智能带来重要进展。尽管深度学习和简单推理的结合已经被用于语音和手写识别，但仍需要新的范式代替基于规则的符号表达式操作