深度神经网络的特征表示,神经网络识别图像原理

有哪些深度神经网络模型？

目前经常使用的深度神经网络模型主要有卷积神经网络(CNN)、递归神经网络(RNN)、深信度网络(DBN)、深度自动编码器(AutoEncoder)和生成对抗网络(GAN)等。

递归神经网络实际.上包含了两种神经网络。

一种是循环神经网络(RecurrentNeuralNetwork);另一种是结构递归神经网络(RecursiveNeuralNetwork)，它使用相似的网络结构递归形成更加复杂的深度网络。

RNN它们都可以处理有序列的问题，比如时间序列等且RNN有“记忆”能力，可以“模拟”数据间的依赖关系。卷积网络的精髓就是适合处理结构化数据。

关于深度神经网络模型的相关学习，推荐CDA数据师的相关课程，课程以项目调动学员数据挖掘实用能力的场景式教学为主，在讲师设计的业务场景下由讲师不断提出业务问题，再由学员循序渐进思考并操作解决问题的过程中，帮助学员掌握真正过硬的解决业务问题的数据挖掘能力。

这种教学方式能够引发学员的独立思考及主观能动性，学员掌握的技能知识可以快速转化为自身能够灵活应用的技能，在面对不同场景时能够自由发挥。点击预约免费试听课。

谷歌人工智能写作项目：小发猫

如何正确理解深度学习的概念

A8U神经网络。

现在深度学习在机器学习领域是一个很热的概念，不过经过各种媒体的转载播报，这个概念也逐渐变得有些神话的感觉：例如，人们可能认为，深度学习是一种能够模拟出人脑的神经结构的机器学习方式，从而能够让计算机具有人一样的智慧；而这样一种技术在将来无疑是前景无限的。

那么深度学习本质上又是一种什么样的技术呢？深度学习是什么深度学习是机器学习领域中对模式（声音、图像等等）进行建模的一种方法，它也是一种基于统计的概率模型。

在对各种模式进行建模之后，便可以对各种模式进行识别了，例如待建模的模式是声音的话，那么这种识别便可以理解为语音识别。

而类比来理解，如果说将机器学习算法类比为排序算法，那么深度学习算法便是众多排序算法当中的一种（例如冒泡排序），这种算法在某些应用场景中，会具有一定的优势。

深度学习的“深度”体现在哪里论及深度学习中的“深度”一词，人们从感性上可能会认为，深度学习相对于传统的机器学习算法，能够做更多的事情，是一种更为“高深”的算法。

而事实可能并非我们想象的那样，因为从算法输入输出的角度考虑，深度学习算法与传统的有监督机器学习算法的输入输出都是类似的，无论是最简单的LogisticRegression，还是到后来的SVM、boosting等算法，它们能够做的事情都是类似的。

正如无论使用什么样的排序算法，它们的输入和预期的输出都是类似的，区别在于各种算法在不同环境下的性能不同。那么深度学习的“深度”本质上又指的是什么呢？

深度学习的学名又叫深层神经网络（DeepNeuralNetworks），是从很久以前的人工神经网络（ArtificialNeuralNetworks）模型发展而来。

这种模型一般采用计算机科学中的图模型来直观的表达，而深度学习的“深度”便指的是图模型的层数以及每一层的节点数量，相对于之前的神经网络而言，有了很大程度的提升。

深度学习也有许多种不同的实现形式，根据解决问题、应用领域甚至论文作者取名创意的不同，它也有不同的名字：例如卷积神经网络（ConvolutionalNeuralNetworks）、深度置信网络（DeepBeliefNetworks）、受限玻尔兹曼机（RestrictedBoltzmannMachines）、深度玻尔兹曼机（DeepBoltzmannMachines）、递归自动编码器（RecursiveAutoencoders）、深度表达（DeepRepresentation）等等。

不过究其本质来讲，都是类似的深度神经网络模型。既然深度学习这样一种神经网络模型在以前就出现过了，为什么在经历过一次没落之后，到现在又重新进入人们的视线当中了呢？

这是因为在十几年前的硬件条件下，对高层次多节点神经网络的建模，时间复杂度（可能以年为单位）几乎是无法接受的。

在很多应用当中，实际用到的是一些深度较浅的网络，虽然这种模型在这些应用当中，取得了非常好的效果（甚至是thestateofart），但由于这种时间上的不可接受性，限制了其在实际应用的推广。

而到了现在，计算机硬件的水平与之前已经不能同日而语，因此神经网络这样一种模型便又进入了人们的视线当中。

人工智能，机器学习，深度学习，到底有何区别

有人说，人工智能（AI）是未来，人工智能是科幻，人工智能也是我们日常生活中的一部分。这些评价可以说都是正确的，就看你指的是哪一种人工智能。

今年早些时候，GoogleDeepMind的AlphaGo打败了韩国的围棋大师李世乭九段。

在媒体描述DeepMind胜利的时候，将人工智能（AI）、机器学习（machinelearning）和深度学习（deeplearning）都用上了。

这三者在AlphaGo击败李世乭的过程中都起了作用，但它们说的并不是一回事。今天我们就用最简单的方法——同心圆，可视化地展现出它们三者的关系和应用。

如上图，人工智能是最早出现的，也是最大、最外侧的同心圆；其次是机器学习，稍晚一点；最内侧，是深度学习，当今人工智能大爆炸的核心驱动。五十年代，人工智能曾一度被极为看好。

之后，人工智能的一些较小的子集发展了起来。先是机器学习，然后是深度学习。深度学习又是机器学习的子集。深度学习造成了前所未有的巨大的影响。

从概念的提出到走向繁荣1956年，几个计算机科学家相聚在达特茅斯会议（DartmouthConferences），提出了“人工智能”的概念。

其后，人工智能就一直萦绕于人们的脑海之中，并在科研实验室中慢慢孵化。之后的几十年，人工智能一直在两极反转，或被称作人类文明耀眼未来的预言；或者被当成技术疯子的狂想扔到垃圾堆里。

坦白说，直到2012年之前，这两种声音还在同时存在。过去几年，尤其是2015年以来，人工智能开始大爆发。很大一部分是由于GPU的广泛应用，使得并行计算变得更快、更便宜、更有效。

当然，无限拓展的存储能力和骤然爆发的数据洪流（大数据）的组合拳，也使得图像数据、文本数据、交易数据、映射数据全面海量爆发。

让我们慢慢梳理一下计算机科学家们是如何将人工智能从最早的一点点苗头，发展到能够支撑那些每天被数亿用户使用的应用的。

| 人工智能（ArtificialIntelligence）——为机器赋予人的智能早在1956年夏天那次会议，人工智能的先驱们就梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。

这就是我们现在所说的“强人工智能”（GeneralAI）。这个无所不能的机器，它有着我们所有的感知（甚至比人更多），我们所有的理性，可以像我们一样思考。

人们在电影里也总是看到这样的机器：友好的，像星球大战中的C-3PO；邪恶的，如终结者。强人工智能现在还只存在于电影和科幻小说中，原因不难理解，我们还没法实现它们，至少目前还不行。

我们目前能实现的，一般被称为“弱人工智能”（NarrowAI）。弱人工智能是能够与人一样，甚至比人更好地执行特定任务的技术。例如，Pinterest上的图像分类；或者Facebook的人脸识别。

这些是弱人工智能在实践中的例子。这些技术实现的是人类智能的一些具体的局部。但它们是如何实现的？这种智能是从何而来？这就带我们来到同心圆的里面一层，机器学习。

| 机器学习——一种实现人工智能的方法机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。

与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。机器学习直接来源于早期的人工智能领域。

传统算法包括决策树学习、推导逻辑规划、聚类、强化学习和贝叶斯网络等等。众所周知，我们还没有实现强人工智能。早期机器学习方法甚至都无法实现弱人工智能。

机器学习最成功的应用领域是计算机视觉，虽然也还是需要大量的手工编码来完成工作。

人们需要手工编写分类器、边缘检测滤波器，以便让程序能识别物体从哪里开始，到哪里结束；写形状检测程序来判断检测对象是不是有八条边；写分类器来识别字母“ST-O-P”。

使用以上这些手工编写的分类器，人们总算可以开发算法来感知图像，判断图像是不是一个停止标志牌。这个结果还算不错，但并不是那种能让人为之一振的成功。

特别是遇到云雾天，标志牌变得不是那么清晰可见，又或者被树遮挡一部分，算法就难以成功了。这就是为什么前一段时间，计算机视觉的性能一直无法接近到人的能力。它太僵化，太容易受环境条件的干扰。

随着时间的推进，学习算法的发展改变了一切。

| 深度学习——一种实现机器学习的技术人工神经网络（ArtificialNeuralNetworks）是早期机器学习中的一个重要的算法，历经数十年风风雨雨。

神经网络的原理是受我们大脑的生理结构——互相交叉相连的神经元启发。但与大脑中一个神经元可以连接一定距离内的任意神经元不同，人工神经网络具有离散的层、连接和数据传播的方向。

例如，我们可以把一幅图像切分成图像块，输入到神经网络的第一层。在第一层的每一个神经元都把数据传递到第二层。第二层的神经元也是完成类似的工作，把数据传递到第三层，以此类推，直到最后一层，然后生成结果。

每一个神经元都为它的输入分配权重，这个权重的正确与否与其执行的任务直接相关。最终的输出由这些权重加总来决定。我们仍以停止（Stop）标志牌为例。

将一个停止标志牌图像的所有元素都打碎，然后用神经元进行“检查”：八边形的外形、救火车般的红颜色、鲜明突出的字母、交通标志的典型尺寸和静止不动运动特性等等。

神经网络的任务就是给出结论，它到底是不是一个停止标志牌。神经网络会根据所有权重，给出一个经过深思熟虑的猜测——“概率向量”。

这个例子里，系统可能会给出这样的结果：86%可能是一个停止标志牌；7%的可能是一个限速标志牌；5%的可能是一个风筝挂在树上等等。然后网络结构告知神经网络，它的结论是否正确。

即使是这个例子，也算是比较超前了。直到前不久，神经网络也还是为人工智能圈所淡忘。其实在人工智能出现的早期，神经网络就已经存在了，但神经网络对于“智能”的贡献微乎其微。

主要问题是，即使是最基本的神经网络，也需要大量的运算。神经网络算法的运算需求难以得到满足。

不过，还是有一些虔诚的研究团队，以多伦多大学的GeoffreyHinton为代表，坚持研究，实现了以超算为目标的并行算法的运行与概念证明。但也直到GPU得到广泛应用，这些努力才见到成效。

我们回过头来看这个停止标志识别的例子。神经网络是调制、训练出来的，时不时还是很容易出错的。它最需要的，就是训练。

需要成百上千甚至几百万张图像来训练，直到神经元的输入的权值都被调制得十分精确，无论是否有雾，晴天还是雨天，每次都能得到正确的结果。

只有这个时候，我们才可以说神经网络成功地自学习到一个停止标志的样子；或者在Facebook的应用里，神经网络自学习了你妈妈的脸；又或者是2012年吴恩达（AndrewNg）教授在Google实现了神经网络学习到猫的样子等等。

吴教授的突破在于，把这些神经网络从基础上显著地增大了。层数非常多，神经元也非常多，然后给系统输入海量的数据，来训练网络。在吴教授这里，数据是一千万YouTube视频中的图像。

吴教授为深度学习（deeplearning）加入了“深度”（deep）。这里的“深度”就是说神经网络中众多的层。

现在，经过深度学习训练的图像识别，在一些场景中甚至可以比人做得更好：从识别猫，到辨别血液中癌症的早期成分，到识别核磁共振成像中的肿瘤。

Google的AlphaGo先是学会了如何下围棋，然后与它自己下棋训练。它训练自己神经网络的方法，就是不断地与自己下棋，反复地下，永不停歇。

| 深度学习，给人工智能以璀璨的未来深度学习使得机器学习能够实现众多的应用，并拓展了人工智能的领域范围。深度学习摧枯拉朽般地实现了各种任务，使得似乎所有的机器辅助功能都变为可能。

无人驾驶汽车，预防性医疗保健，甚至是更好的电影推荐，都近在眼前，或者即将实现。人工智能就在现在，就在明天。有了深度学习，人工智能甚至可以达到我们畅想的科幻小说一般。

你的C-3PO我拿走了，你有你的终结者就好了。

人工智能学习中的深度学习是什么意思？

。

深度学习(DL,DeepLearning)是机器学习(ML,MachineLearning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。

深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

深度学习和深度神经网络的AI有什么区别

AI就是人工智能（ArtificialIntelligence）的简称。机器学习：一种实现人工智能的方法，机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。

机器学习算法可以分为监督学习（如分类问题）、无监督学习（如聚类问题）、半监督学习、集成学习、深度学习和强化学习。深度学习：一种实现机器学习的技术。

深度学习本来并不是一种独立的学习方法，其本身也会用到有监督和无监督的学习方法来训练深度神经网络。最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。

深度神经网络本身并不是一个全新的概念，可大致理解为包含多个隐含层的神经网络结构。

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习的概念源于人工神经网络的研究。

含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

什么是深度学习与机器视觉

深度学习框架，尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2]，而人工神经网络的历史更为久远。

1989年，燕乐存（YannLeCun）等人开始将1974年提出的标准反向传播算法[3]应用于深度神经网络，这一网络被用于手写邮政编码识别。

尽管算法可以成功执行，但计算代价非常巨大，神经网路的训练时间达到了3天，因而无法投入实际使用[4]。

许多因素导致了这一缓慢的训练过程，其中一种是由于尔根·施密德胡伯（JürgenSchmidhuber）的学生赛普·霍克赖特（SeppHochreiter）于1991年提出的梯度消失问题[5][6]。

与此同时，神经网络也受到了其他更加简单模型的挑战，支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。“深度学习”这一概念从2007年前后开始受到关注。

当时，杰弗里·辛顿（GeoffreyHinton）和鲁斯兰·萨拉赫丁诺夫（RuslanSalakhutdinov）提出了一种在前馈神经网络中进行有效训练的算法。

这一算法将网络中的每一层视为无监督的受限玻尔兹曼机，再使用有监督的反向传播算法进行调优[7]。

在此之前的1992年，在更为普遍的情形下，施密德胡伯也曾在递归神经网络上提出一种类似的训练方法，并在实验中证明这一训练方法能够有效提高有监督学习的执行速度[8][9].自深度学习出现以来，它已成为很多领域，尤其是在计算机视觉和语音识别中，成为各种领先系统的一部分。

在通用的用于检验的数据集，例如语音识别中的TIMIT和图像识别中的ImageNet,Cifar10上的实验证明，深度学习能够提高识别的精度。硬件的进步也是深度学习重新获得关注的重要因素。

高性能图形处理器的出现极大地提高了数值和矩阵运算的速度，使得机器学习算法的运行时间得到了显著的缩短[10][11]。

基本概念[编辑]深度学习的基础是机器学习中的分散表示（distributedrepresentation）。分散表示假定观测值是由不同因子相互作用生成。

在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[1]。

深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。

这一分层结构常常使用贪婪算法逐层构建而成，并从中选取有助于机器学习的更有效的特征[1].不少深度学习算法都以无监督学习的形式出现，因而这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签数据更丰富，也更容易获得。

这一点也为深度学习赢得了重要的优势[1]。人工神经网络下的深度学习[编辑]一部分最成功的深度学习方法涉及到对人工神经网络的运用。

人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔（DavidH.Hubel）和托斯坦·威泽尔（TorstenWiesel）提出的理论启发。

休伯尔和威泽尔发现，在大脑的初级视觉皮层中存在两种细胞：简单细胞和复杂细胞，这两种细胞承担不同层次的视觉感知功能。受此启发，许多神经网络模型也被设计为不同节点之间的分层模型[12]。

福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构[13]。

事实上，从反向传播算法自20世纪70年代提出以来，不少研究者都曾试图将其应用于训练有监督的深度神经网络，但最初的尝试大都失败。

赛普·霍克赖特（SeppHochreiter）在其博士论文中将失败的原因归结为梯度消失，这一现象同时在深度前馈神经网络和递归神经网络中出现，后者的训练过程类似深度网络。

在分层训练的过程中，本应用于修正模型参数的误差随着层数的增加指数递减，这导致了模型训练的效率低下[14][15]。为了解决这一问题，研究者们提出了一些不同的方法。

于尔根·施密德胡伯（JürgenSchmidhuber）于1992年提出多层级网络，利用无监督学习训练深度神经网络的每一层，再使用反向传播算法进行调优。

在这一模型中，神经网络中的每一层都代表观测变量的一种压缩表示，这一表示也被传递到下一层网络[8]。

另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络（longshorttermmemory，LSTM）[16]。

2009年，在ICDAR2009举办的连笔手写识别竞赛中，在没有任何先验知识的情况下，深度多维长短期记忆神经网络取得了其中三场比赛的胜利[17][18]。

斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型，用以解决图像重建和人脸定位的问题[19]。

其他方法同样采用了无监督预训练来构建神经网络，用以发现有效的特征，此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。

这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机[20]对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。

当足够多的层数被学习完毕，这一深层结构成为一个生成模型，可以通过自上而下的采样重构整个数据集[21]。辛顿声称这一模型在高维结构化数据上能够有效低提取特征[22]。

吴恩达和杰夫·迪恩（JeffDean）领导的谷歌大脑（英语：GoogleBrain）团队创建了一个仅通过YouTube视频学习高层概念（例如猫）的神经网络[23][24]。

其他方法依赖了现代电子计算机的强大计算能力，尤其是GPU。

2010年，在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中，丹·奇雷尚（DanCiresan）和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。

这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法[10]。

截止2011年，前馈神经网络深度学习中最新的方法是交替使用卷积层（convolutionallayers）和最大值池化层（max-poolinglayers）并加入单纯的分类层作为顶端。

训练过程也无需引入无监督的预训练[25][26]。从2011年起，这一方法的GPU实现[25]多次赢得了各类模式识别竞赛的胜利，包括IJCNN2011交通标志识别竞赛[27]和其他比赛。

这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法[28]。深度学习结构[编辑]深度神经网络是一种具备至少一个隐层的神经网络。

与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到递归神经网络[29]。

卷积深度神经网络（CovolutionalNeuronNetworks,CNN）在计算机视觉领域得到了成功的应用[30]。

此后，卷积神经网络也作为听觉模型被使用在自动语音识别领域，较以往的方法获得了更优的结果[31]。

深度神经网络[编辑]深度神经网络（deepneuronnetworks,DNN）是一种判别模型，可以使用反向传播算法进行训练。

权重更新可以使用下式进行随机梯度下降求解：其中，为学习率，为代价函数。这一函数的选择与学习的类型（例如监督学习、无监督学习、增强学习）以及激活函数相关。

例如，为了在一个多分类问题上进行监督学习，通常的选择是使用Softmax函数作为激活函数，而使用交叉熵作为代价函数。Softmax函数定义为，其中代表类别的概率，而和分别代表对单元和的输入。

交叉熵定义为，其中代表输出单元的目标概率，代表应用了激活函数后对单元的概率输出[32]。深度神经网络的问题[编辑]与其他神经网络模型类似，如果仅仅是简单地训练，深度神经网络可能会存在很多问题。

常见的两类问题是过拟合和过长的运算时间。深度神经网络很容易产生过拟合现象，因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。

对此，权重递减（正规化）或者稀疏（-正规化）等方法可以利用在训练过程中以减小过拟合现象[33]。

另一种较晚用于深度神经网络训练的正规化方法是丢弃法（"dropout"regularization），即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模[34]。

反向传播算法和梯度下降法由于其实现简单，与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。

但是，这些方法的计算代价很高，尤其是在训练深度神经网络时，因为深度神经网络的规模（即层数和每层的节点数）、学习率、初始权重等众多参数都需要考虑。

扫描所有参数由于时间代价的原因并不可行，因而小批量训练（mini-batching），即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练，被用于加速模型训练[35]。

而最显著地速度提升来自GPU，因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网络训练仍然存在困难，因而深度神经网络在训练并行化方面仍有提升的空间。

深度信念网络[编辑]一个包含完全连接可见层和隐层的受限玻尔兹曼机（RBM）。注意到可见层单元和隐层单元内部彼此不相连。

深度信念网络（deepbeliefnetworks，DBN）是一种包含多层隐单元的概率生成模型，可被视为多层简单学习模型组合而成的复合模型[36]。

深度信念网络可以作为深度神经网络的预训练部分，并为网络提供初始权重，再使用反向传播或者其他判定算法作为调优的手段。

这在训练数据较为缺乏时很有价值，因为不恰当的初始化权重会显著影响最终模型的性能，而预训练获得的权重在权值空间中比随机权重更接近最优的权重。这不仅提升了模型的性能，也加快了调优阶段的收敛速度[37]。

深度信念网络中的每一层都是典型的受限玻尔兹曼机（restrictedBoltzmannmachine，RBM），可以使用高效的无监督逐层训练方法进行训练。

受限玻尔兹曼机是一种无向的基于能量的生成模型，包含一个输入层和一个隐层。图中对的边仅在输入层和隐层之间存在，而输入层节点内部和隐层节点内部则不存在边。

单层RBM的训练方法最初由杰弗里·辛顿在训练“专家乘积”中提出，被称为对比分歧（contrastdivergence,CD）。

对比分歧提供了一种对最大似然的近似，被理想地用于学习受限玻尔兹曼机的权重[35]。当单层RBM被训练完毕后，另一层RBM可被堆叠在已经训练完成的RBM上，形成一个多层模型。

每次堆叠时，原有的多层网络输入层被初始化为训练样本，权重为先前训练得到的权重，该网络的输出作为新增RBM的输入，新的RBM重复先前的单层训练过程，整个过程可以持续进行，直到达到某个期望中的终止条件[38]。

尽管对比分歧对最大似然的近似十分粗略（对比分歧并不在任何函数的梯度方向上），但经验结果证实该方法是训练深度结构的一种有效的方法[35]。

卷积神经网络[编辑]主条目：卷积神经网络卷积神经网络（convolutionalneuronnetworks，CNN）由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（poolinglayer）。

这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。

相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构[39]。

卷积深度信念网络[编辑]卷积深度信念网络（convolutionaldeepbeliefnetworks，CDBN）是深度学习领域较新的分支。

在结构上，卷积深度信念网络与卷积神经网络在结构上相似。因此，与卷积神经网络类似，卷积深度信念网络也具备利用图像二维结构的能力，与此同时，卷积深度信念网络也拥有深度信念网络的预训练优势。

卷积深度信念网络提供了一种能被用于信号和图像处理任务的通用结构，也能够使用类似深度信念网络的训练方法进行训练[40]。

结果[编辑]语音识别[编辑]下表中的结果展示了深度学习在通行的TIMIT数据集上的结果。TIMIT包含630人的语音数据，这些人持八种常见的美式英语口音，每人阅读10句话。

这一数据在深度学习发展之初常被用于验证深度学习结构[41]。TIMIT数据集较小，使得研究者可以在其上实验不同的模型配置。

方法声音误差率(PER,%)随机初始化RNN26.1贝叶斯三音子GMM-HMM25.6单音子重复初始化DNN23.4单音子DBN-DNN22.4带BMMI训练的三音子GMM-HMM21.7共享池上的单音子DBN-DNN20.7卷积DNN20.0图像分类[编辑]图像分类领域中一个公认的评判数据集是MNIST数据集。

MNIST由手写阿拉伯数字组成，包含60,000个训练样本和10,000个测试样本。与TIMIT类似，它的数据规模较小，因而能够很容易地在不同的模型配置下测试。

YannLeCun的网站给出了多种方法得到的实验结果[42]。截至2012年，最好的判别结果由Ciresan等人在当年给出，这一结果的错误率达到了0.23%[43]。

深度学习与神经科学[编辑]计算机领域中的深度学习与20世纪90年代由认知神经科学研究者提出的大脑发育理论（尤其是皮层发育理论）密切相关[44]。

对这一理论最容易理解的是杰弗里·艾尔曼（JeffreyElman）于1996年出版的专著《对天赋的再思考》（RethinkingInnateness）[45]（参见斯拉格和约翰逊[46]以及奎兹和赛杰诺维斯基[47]的表述）。

由于这些理论给出了实际的神经计算模型，因而它们是纯计算驱动的深度学习模型的技术先驱。这些理论指出，大脑中的神经元组成了不同的层次，这些层次相互连接，形成一个过滤体系。

在这些层次中，每层神经元在其所处的环境中获取一部分信息，经过处理后向更深的层级传递。这与后来的单纯与计算相关的深度神经网络模型相似。这一过程的结果是一个与环境相协调的自组织的堆栈式的转换器。

正如1995年在《纽约时报》上刊登的那样，“……婴儿的大脑似乎受到所谓‘营养因素’的影响而进行着自我组织……大脑的不同区域依次相连，不同层次的脑组织依照一定的先后顺序发育成熟，直至整个大脑发育成熟。

”[48]深度结构在人类认知演化和发展中的重要性也在认知神经学家的关注之中。发育时间的改变被认为是人类和其他灵长类动物之间智力发展差异的一个方面[49]。

在灵长类中，人类的大脑在出生后的很长时间都具备可塑性，但其他灵长类动物的大脑则在出生时就几乎完全定型。

因而，人类在大脑发育最具可塑性的阶段能够接触到更加复杂的外部场景，这可能帮助人类的大脑进行调节以适应快速变化的环境，而不是像其他动物的大脑那样更多地受到遗传结构的限制。

这样的发育时间差异也在大脑皮层的发育时间和大脑早期自组织中从刺激环境中获取信息的改变得到体现。当然，伴随着这一可塑性的是更长的儿童期，在此期间人需要依靠抚养者和社会群体的支持和训练。

因而这一理论也揭示了人类演化中文化和意识共同进化的现象[50]。公众视野中的深度学习[编辑]深度学习常常被看作是通向真正人工智能的重要一步[51]，因而许多机构对深度学习的实际应用抱有浓厚的兴趣。

2013年12月，Facebook宣布雇用燕乐存为其新建的人工智能实验室的主管，这一实验室将在加州、伦敦和纽约设立分支机构，帮助Facebook研究利用深度学习算法进行类似自动标记照片中用户姓名这样的任务[52]。

2013年3月，杰弗里·辛顿和他的两位研究生亚历克斯·克里泽夫斯基和伊利娅·苏特斯科娃被谷歌公司雇用，以提升现有的机器学习产品并协助处理谷歌日益增长的数据。

谷歌同时并购了辛顿创办的公司DNNresearch[53]。批评[编辑]对深度学习的主要批评是许多方法缺乏理论支撑。大多数深度结构仅仅是梯度下降的某些变式。

尽管梯度下降已经被充分地研究，但理论涉及的其他算法，例如对比分歧算法，并没有获得充分的研究，其收敛性等问题仍不明确。深度学习方法常常被视为黑盒，大多数的结论确认都由经验而非理论来确定。

也有学者认为，深度学习应当被视为通向真正人工智能的一条途径，而不是一种包罗万象的解决方案。尽管深度学习的能力很强，但和真正的人工智能相比，仍然缺乏诸多重要的能力。

理论心理学家加里·马库斯（GaryMarcus）指出：就现实而言，深度学习只是建造智能机器这一更大挑战中的一部分。

这些技术缺乏表达因果关系的手段……缺乏进行逻辑推理的方法，而且远没有具备集成抽象知识，例如物品属性、代表和典型用途的信息。

最为强大的人工智能系统，例如IBM的人工智能系统沃森，仅仅把深度学习作为一个包含从贝叶斯推理和演绎推理等技术的复杂技术集合中的组成部分[54]。

深度解析：为什么人工智能领域中深度学习这么火

。

深度学习首先在图像、声音和语义识别取得了长足的进步，特别是在图像和声音领域相比传统的算法大大提升了识别率，其实也很容易理解，深度学习是仿人来大脑神经感知外部世界的算法，而最直接的外部自然信号莫过于图像、声音和文字（非语义）。

图像识别：图像是深度学习最早尝试的领域，大牛YannLeCun早在1989年就开始了卷积神经网络的研究，取得了在一些小规模（手写字）的图像识别的成果，但在像素丰富的图片上迟迟没有突破，直到2012年Hinton和他学生在ImageNet上的突破，使识别精度提高了一大步。

2014年，香港中文大学教授汤晓鸥领导的计算机视觉研究组开发了名为DeepID的深度学习模型，在LFW(LabeledFacesintheWild，人脸识别使用非常广泛的测试基准)数据库上获得了99.15%的识别率，人用肉眼在LFW上的识别率为97.52%，深度学习在学术研究层面上已经超过了人用肉眼的识别。

当然在处理真实场景的人脸识别时还是差强人意，例如人脸不清晰，光照条件，局部遮挡等因素都会影响识别率，所以在实际操作中机器学习与人工确认相结合，更加妥当。

国内做人脸识别的公司众多，其中Face++、中科奥森、Sensetime、Linkface、飞搜科技都是走在前面的，在真实环境运用或者在垂直细分领域中有着深厚的数据积累。

在基于面部特征识别技术的情绪识别领域，阅面科技与Facethink（Facethink为天使湾早期投资项目）是国内少数进入该领域的初创公司。

语音识别：语音识别长期以来都是使用混合高斯模型来建模，在很长时间内都是占据垄断地位的建模方式，但尽管其降低了语音识别的错误率，但面向商业级别的应用仍然困难，也就是在实际由噪音的环境下达不到可用的级别。

直到深度学习的出现，使得识别错误率在以往最好的基础上相对下降30%以上，达到商业可用的水平。

微软的俞栋博士和邓力博士是这一突破的最早的实践者，他们与Hinton一起最早将深度学习引入语音识别并取得成功。

由于语音识别的算法成熟，科大讯飞、云知声、思必驰在通用识别上识别率都相差不大，在推广上科大讯飞是先行者，从军用到民用，包括移动互联网、车联网、智能家居都有广泛涉及。

自然语言处理（NLP）：即使现在深度学习在NLP领域并没有取得像图像识别或者语音识别领域的成绩，基于统计的模型仍然是NLP的主流，先通过语义分析提取关键词、关键词匹配、算法判定句子功能（计算距离这个句子最近的标识好的句子），最后再从提前准备的数据库里提供用户输出结果。

显然，这明显谈不上智能，只能算一种搜索功能的实现，而缺乏真正的语言能力。苹果的Siri、微软的小冰、安望的小灵灵都在发力智能聊天机器人领域。

小灵灵众多竞争对手中还是蛮有意思的，她的设想就是“你随便和我聊天吧”，而其他竞争对手则专注于某些细分领域却面临着在细分领域仍是需要通用的聊天系统。

为什么深度学习在NLP领域进展缓慢：对语音和图像来说，其构成元素（轮廓、线条、语音帧）不用经过预处理都能清晰的反映出实体或者音素，可以简单的运用到神经网络里进行识别工作。

而语义识别大不相同：首先一段文本一句话是经过大脑预处理的，并非自然信号；其次，词语之间的相似并不代表其意思相近，而且简单的词组组合起来之后意思也会有歧义（特别是中文，比如说“万万没想到”，指的是一个叫万万的人没想到呢，还是表示出乎意料的没想到呢，还是一部电影的名字呢）；对话需要上下文的语境的理解，需要机器有推理能力；人类的语言表达方式灵活，而很多交流是需要知识为依托的。

很有趣，仿人类大脑识别机制建立的深度学习，对经过我们人类大脑处理的文字信号，反而效果差强人意。根本上来说，现在的算法还是弱人工智能，可以去帮人类快速的自动执行（识别），但还是不能理解这件事情本身。