神经网络卷积神经网络,卷积神经网络吴恩达

吴恩达的人物经历

吴恩达1976年出生于伦敦，父亲是一位香港医生，英文名叫AndrewNg，吴恩达年轻时候在香港和新加坡度过。

1992年吴恩达就读新加坡莱佛士书院，并于1997年获得了卡内基梅隆大学的计算机科学学士学位。

之后他在1998年获得了麻省理工学院的硕士学位，并于2002年获得了加州大学伯克利分校的博士学位，并从这年开始在斯坦福大学工作。他（2002年）住在加利福尼亚州的帕洛阿尔托。

吴恩达是斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任。吴恩达主要成就在机器学习和人工智能领域，他是人工智能和机器学习领域最权威的学者之一。

2010年，时任斯坦福大学教授的吴恩达加入谷歌开发团队XLab——这个团队已先后为谷歌开发无人驾驶汽车和谷歌眼镜两个知名项目。

吴恩达与谷歌顶级工程师开始合作建立全球最大的“神经网络”，这个神经网络能以与人类大脑学习新事物相同的方式来学习现实生活。谷歌将这个项目命名为“谷歌大脑”。

吴恩达最知名的是，所开发的人工神经网络通过观看一周YouTube视频，自主学会识别哪些是关于猫的视频。这个案例为人工智能领域翻开崭新一页。

吴恩达表示，未来将会在谷歌无人驾驶汽车上使用该项技术，来识别车前面的动物或者小孩，从而及时躲避。

2014年5月16日，百度宣布吴恩达加入百度，担任百度公司首席科学家，负责百度研究院的领导工作，尤其是BaiduBrain计划。

2014年5月19日，百度宣布任命吴恩达博士为百度首席科学家，全面负责百度研究院。这是中国互联网公司迄今为止引进的最重量级人物。消息一经公布，就成为国际科技界的关注话题。

美国权威杂志《麻省理工科技评论》(MITTechnologyReview)甚至用充满激情的笔调对未来给予展望：“百度将领导一个创新的软件技术时代，更加了解世界。”

谷歌人工智能写作项目：小发猫

吴恩达在百度是什么职位？

吴恩达（AndrewNg），华裔美国人，斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任，百度公司首席科学家AI爱发猫。

吴恩达是人工智能和机器学习领域国际上最权威的学者之一，也是在线教育平台Coursera的联合创始人（withDaphneKoller）。

2011年，吴恩达在Google创建GoogleBrain项目，以通过分布式集群计算机开发超大规模的人工神经网络。

2014年5月16日，吴恩达加入百度，负责“百度大脑”计划，同时担任百度公司首席科学家。2015年6月5日，吴恩达暂任百度深度学习实验室（IDL）的ActingDirector职务。

2017年3月22日，百度首席科学家吴恩达宣布将离职。

吴恩达的主要成就

吴恩达早期的工作包括斯坦福自动控制直升机项目，吴恩达团队开发了世界上最先进的自动控制直升机之一。

吴恩达同时也是机器学习、机器人技术和相关领域的100多篇论文的作者或合作者，他在计算机视觉的一些工作被一系列的出版物和评论文章所重点引用。

早期的另一项工作是theSTAIR(StanfordArtificialIntelligenceRobot)project，即斯坦福人工智能机器人项目，项目最终开发了广泛使用的开源机器人技术软件平台ROS。

2011年，吴恩达在谷歌成立了“GoogleBrain”项目，这个项目利用谷歌的分布式计算框架计算和学习大规模人工神经网络。

这个项目重要研究成果是，在16000个CPU核心上利用深度学习算法学习到的10亿参数的神经网络，能够在没有任何先验知识的情况下，仅仅通过观看无标注的YouTube的视频学习到识别高级别的概念，如猫，这就是著名的“GoogleCat”。

这个项目的技术已经被应用到了安卓操作系统的语音识别系统上。

吴恩达是在线教育平台Coursera的联合创始人，吴恩达在2008年发起了“StanfordEngineeringEverywhere”（SEE）项目，这个项目把斯坦福的许多课程放到网上，供免费学习。

NG也教了一些课程，如机器学习课程，包含了他录制的视频讲座和斯坦福CS299课程的学生材料。吴恩达的理想是让世界上每个人能够接受高质量的、免费的教育。

今天，Coursera和世界上一些顶尖大学的合作者们一起提供高质量的免费在线课程。Coursera是世界上最大的MOOC平台。

DeepLearningwithCOTSHPCSystemsAdamCoates,BrodyHuval,TaoWang,DavidJ.Wu,BryanCatanzaroandAndrewY.NginICML2013.ParsingwithCompositionalVectorGrammarsJohnBauer,RichardSocher,ChristopherD.Manning,AndrewY.NginACL2013.LearningNewFactsFromKnowledgeBasesWithNeuralTensorNetworksandSemanticWordVectorsDanqiChen,RichardSocher,ChristopherD.Manning,AndrewY.NginICLR2013.Convolutional-RecursiveDeepLearningfor3DObjectClassification.RichardSocher,BrodyHuval,BharathBhat,ChristopherD.Manning,AndrewY.NginNIPS2012.ImprovingWordRepresentationsviaGlobalContextandMultipleWordPrototypesEricH.Huang,RichardSocher,ChristopherD.ManningandAndrewY.NginACL2012.LargeScaleDistributedDeepNetworks.J.Dean,G.S.Corrado,R.Monga,K.Chen,M.Devin,Q.V.Le,M.Z.Mao,M.A.Ranzato,A.Senior,P.Tucker,K.Yang,A.Y.NginNIPS2012.RecurrentNeuralNetworksforNoiseReductioninRobustASR.A.L.Maas,Q.V.Le,T.M.O'Neil,O.Vinyals,P.Nguyen,andAndrewY.NginInterspeech2012.Word-levelAcousticModelingwithConvolutionalVectorRegressionLearningWorkshopAndrewL.Maas,StephenD.Miller,TylerM.O'Neil,AndrewY.Ng,andPatrickNguyeninICML2012.EmergenceofObject-SelectiveFeaturesinUnsupervisedFeatureLearning.AdamCoates,AndrejKarpathy,andAndrewY.NginNIPS2012.DeepLearningofInvariantFeaturesviaSimulatedFixationsinVideoWillY.Zou,ShenghuoZhu,AndrewY.Ng,KaiYuinNIPS2012.LearningFeatureRepresentationswithK-means.AdamCoatesandAndrewY.NginNeuralNetworks:TricksoftheTrade,Reloaded,SpringerLNCS2012.BuildingHigh-LevelFeaturesusingLargeScaleUnsupervisedLearningQuocV.Le,Marc'AurelioRanzato,RajatMonga,MatthieuDevin,KaiChen,GregS.Corrado,JeffreyDeanandAndrewY.NginICML2012.SemanticCompositionalitythroughRecursiveMatrix-VectorSpacesRichardSocher,BrodyHuval,ChristopherD.ManningandAndrewY.NginEMNLP2012.End-to-EndTextRecognitionwithConvolutionalNeuralNetworksTaoWang,DavidJ.Wu,AdamCoatesandAndrewY.NginICPR2012.SelectingReceptiveFieldsinDeepNetworksAdamCoatesandAndrewY.NginNIPS2011.ICAwithReconstructionCostforEfficientOvercompleteFeatureLearningQuocV.Le,AlexKarpenko,JiquanNgiamandAndrewY.NginNIPS2011.SparseFilteringJiquanNgiam,PangweiKoh,ZhenghaoChen,SoniaBhaskarandAndrewY.NginNIPS2011.UnsupervisedLearningModelsofPrimaryCorticalReceptiveFieldsandReceptiveFieldPlasticityAndrewSaxe,ManeeshBhand,RitvikMudur,BipinSureshandAndrewY.NginNIPS2011.DynamicPoolingandUnfoldingRecursiveAutoencodersforParaphraseDetectionRichardSocher,EricH.Huang,JeffreyPennington,AndrewY.Ng,andChristopherD.ManninginNIPS2011.Semi-SupervisedRecursiveAutoencodersforPredictingSentimentDistributionsRichardSocher,JeffreyPennington,EricHuang,AndrewY.Ng,andChristopherD.ManninginEMNLP2011.TextDetectionandCharacterRecognitioninSceneImageswithUnsupervisedFeatureLearningAdamCoates,BlakeCarpenter,CarlCase,SanjeevSatheesh,BipinSuresh,TaoWang,DavidWuandAndrewY.NginICDAR2011.ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworksRichardSocher,CliffLin,AndrewY.NgandChristopherManninginICML2011.TheImportanceofEncodingVersusTrainingwithSparseCodingandVectorQuantizationAdamCoatesandAndrewY.NginICML2011.OnOptimizationMethodsforDeepLearningQuocV.Le,JiquanNgiam,AdamCoates,AbhikLahiri,BobbyProchnowandAndrewY.NginICML2011.LearningDeepEnergyModelsJiquanNgiam,ZhenghaoChen,PangweiKohandAndrewY.NginICML2011.MultimodalDeepLearningJiquanNgiam,AdityaKhosla,MingyuKim,JuhanNam,HonglakLeeandAndrewY.NginICML2011.OnRandomWeightsandUnsupervisedFeatureLearningAndrewSaxe,PangweiKoh,ZhenghaoChen,ManeeshBhand,BipinSureshandAndrewY.NginICML2011.LearningHierarchicalSpatio-TemporalFeaturesforActionRecognitionwithIndependentSubspaceAnalysisQuocV.Le,WillZou,SerenaYeungandAndrewY.NginCVPR2011.AnAnalysisofSingle-LayerNetworksinUnsupervisedFeatureLearningAdamCoates,HonglakLeeandAndrewNginAISTATS14,2011.LearningWordVectorsforSentimentAnalysisAndrewL.Maas,RaymondE.Daly,PeterT.Pham,DanHuang,AndrewY.Ng,andChristopherPottsinACL2011.ALow-costCompliant7-DOFRoboticManipulatorMorganQuigley,AlanAsbeckandAndrewY.NginICRA2011.GraspingwithApplicationtoanAutonomousCheckoutRobotEllenKlingbeil,DeepakDrao,BlakeCarpenter,VarunGanapathi,OussamaKhatib,AndrewY.NginICRA2011.AutonomousSignReadingforSemanticMappingCarlCase,BipinSuresh,AdamCoatesandAndrewY.NginICRA2011.LearningContinuousPhraseRepresentationsandSyntacticParsingwithRecursiveNeuralNetworksRichardSocher,ChristopherManningandAndrewNginNIPS2010.AProbabilisticModelforSemanticWordVectorsAndrewMaasandAndrewNginNIPS2010.TiledConvolutionalNeuralNetworksQuocV.Le,JiquanNgiam,ZhenghaoChen,DanielChia,PangweiKohandAndrewY.NginNIPS2010.EnergyDisaggregationviaDiscriminativeSparseCodingJ.ZicoKolterandAndrewY.NginNIPS2010.AutonomousHelicopterAerobaticsthroughApprenticeshipLearningPieterAbbeel,AdamCoatesandAndrewY.NginIJRR2010.AutonomousOperationofNovelElevatorsforRobotNavigationEllenKlingbeil,BlakeCarpenter,OlgaRussakovskyandAndrewY.NginICRA2010.LearningtoGraspObjectswithMultipleContactPointsQuocLe,DavidKammandAndrewY.NginICRA2010.Multi-CameraObjectDetectionforRoboticsAdamCoatesandAndrewY.NginICRA2010.AProbabilisticApproachtoMixedOpen-loopandClosed-loopControl,withApplicationtoExtremeAutonomousDrivingJ.ZicoKolter,ChristianPlagemann,DavidT.Jackson,AndrewY.NgandSebastianThruninICRA2010.GraspingNovelObjectswithDepthSegmentationDeepakRao,QuocV.Le,ThanathornPhoka,MorganQuigley,AttawithSudsandandAndrewY.NginIROS2010.Low-costAccelerometersforRoboticManipulatorPerceptionMorganQuigley,ReubenBrewer,SaiP.Soundararaj,VijayPradeep,QuocV.LeandAndrewY.NginIROS2010.ASteinerTreeApproachtoObjectDetectionOlgaRussakovskyandAndrewY.NginCVPR2010.MeasuringInvariancesinDeepNetworksIanJ.Goodfellow,QuocV.Le,AndrewM.Saxe,HonglakLeeandAndrewY.NginNIPS2009.UnsupervisedFeatureLearningforAudioClassificationUsingConvolutionalDeepBeliefNetworksHonglakLee,YanLargman,PeterPhamandAndrewY.NginNIPS2009.ConvolutionalDeepBeliefNetworksforScalableUnsupervisedLearningofHierarchicalRepresentationsHonglakLee,RogerGrosse,RajeshRanganathandAndrewY.NginICML2009.Large-scaleDeepUnsupervisedLearningusingGraphicsProcessorsRajatRaina,AnandMadhavanandAndrewY.NginICML2009.Amajorization-minimizationalgorithmfor(multiple)hyperparameterlearningChuanShengFoo,ChuongDoandAndrewY.NginICML2009.RegularizationandFeatureSelectioninLeast-SquaresTemporalDifferenceLearningJ.ZicoKolterandAndrewY.NginICML2009.Near-BayesianExplorationinPolynomialTimeJ.ZicoKolterandAndrewY.NginICML2009.PolicySearchviatheSignedDerivativeJ.ZicoKolterandAndrewY.NginRSS2009.JointCalibrationofMultipleSensorsQuocLeandAndrewY.NginIROS2009.ScalableLearningforObjectDetectionwithGPUHardwareAdamCoates,PaulBaumstarck,QuocLe,andAndrewY.NginIROS2009.ExponentialFamilySparseCodingwithApplicationtoSelf-taughtLearningHonglakLee,RajatRaina,AlexTeichmanandAndrewY.NginIJCAI2009.ApprenticeshipLearningforHelicopterControlAdamCoates,PieterAbbeelandAndrewY.NginCommunicationsoftheACM,Volume52,2009.ROS:AnOpen-SourceRobotOperatingSystemMorganQuigley,BrianGerkey,KenConley,JoshFaust,TullyFoote,JeremyLeibs,EricBerger,RobWheeler,andAndrewY.NginICRA2009.High-Accuracy3DSensingforMobileManipulation:ImprovingObjectDetectionandDoorOpeningMorganQuigley,SiddharthBatra,StephenGould,EllenKlingbeil,QuocLe,AshleyWellmanandAndrewY.NginICRA2009.StereoVisionandTerrainModelingforQuadrupedRobotsJ.ZicoKolter,YoungjunKimandAndrewY.NginICRA2009.Task-SpaceTrajectoriesviaCubicSplineOptimizationJ.ZicoKolterandAndrewY.NginICRA2009.LearningSoundLocationfromaSingleMicrophoneAshutoshSaxenaandAndrewY.NginICRA2009.Learning3-DObjectOrientationfromImagesAshutoshSaxena,JustinDriemeyerandAndrewY.NginICRA2009.ReactiveGraspingUsingOpticalProximitySensorsKaijenHsiao,PaulNangeroni,ManfredHuber,AshutoshSaxenaandAndrewY.NginICRA2009。

如何评价吴恩达的学术地位

吴恩达(AndrewNg)，斯坦福计算机系的副教授，师从机器学习的大师级人物MichaelI.Jordan。

同门师兄弟包括ZoubinGhahramani,TommiJaakkola,EricXing,DavidBlei,徒子徒孙遍布美国名校，他们这一大学派的主要研究和贡献集中在统计机器学习（StatisticalMachineLearning）和图模型(ProbabilisticGraphicalmodel),具体的比如Spectralclustering,NonparametricBayesianMethods,VariationalMethods等等。

现在图模型和NonparametricBayesianMethods都是机器学习领域炙手可热的研究方向。

MichaelJordan的研究很好的将统计和机器学习联系了起来，将VariationalMethods发扬光大，他也还身兼统计系和计算机系教职。

吴恩达的学术研究兴趣比较广，做的东西有比较理论的，但更多的是理论和应用的结合。

他的一作主要集中在SpectralClustering,UnsupervisedLearning和增强式学习(reinforcementlearning)，机器学习的很多方面都有涉及，比如featureselection，over-fitting，policysearch。

由于做reinforcementlearning和unsupervisedlearning,所以有很多项目是和机器人有关的,他也发起了ROS(RobotOperatingSystem),一个开源的机器人操作系统，影响力很大。

其他的参与的研究就很多了，MichaelJordan那一片的统计机器学习都有参与，在图模型领域也有很多非常优秀论文，比如自然语言处理(NLP)的神器LatentDirchirelntAllocation(LDA)那篇论文他也有贡献。

他现在的研究兴趣主要是深度学习(DeepLearning)，深度学习说白了就是死灰复燃的神经网络(NeuralNetwork),神经网络的一代鼻祖是多伦多大学的GeoffreyHinton。

GeoffreyHinton和吴恩达一起在Google搞深度学习(GoogleBrainProject)，他们俩现在在这一块的论文很多，影响力很大。

总体而言他是顶级的机器学习研究者，在斯坦福是tenuredprofessor已经说明了这点，至于LabDirector，和学术无关，只要是教授都可以成立一个实验室自己当主任(Director)，不要把主任拿过来说事。

更重要的是，他在学术圈内圈外知名度很高！

除了师承之外，还有一个重要原因是他在斯坦福公开课里面主讲机器学习，讲的的确是非常好，在工程界非常受欢迎，后来和DaphneKoller(机器学习界的一姐和大牛，《ProbabilisticGraphicalModels:PrinciplesandTechniques》一书的作者)一起成立了Coursera。

吴恩达对慕课(MOOC)和Coursera的贡献我就不赘述了。

另外吴恩达会说中文，出生于英国，高中毕业于新加坡的RafflesInsitution，本科毕业于卡耐基梅隆大学，硕士在麻省理工，博士毕业于伯克利，早年在香港和英国生活过。

深度学习的课程可以在哪看到？

深度学习就是企图把中间的这个“黑箱”打开：目标是什么？根据什么确定了这样的目标？为了达到这个目标我要设计什么样的活动？

01深度学习的必要性改革开放40年，基础教育研究与实践的最大成就之一，就是树立了“学生是教育主体”的观念。但是，在课堂教学中，学生并未真正成为主体，大多数课堂教学也没有发生根本变化。为什么？

因为大多数教学改革尚未抓住教学的根本，对课堂教学的研究还只停留在文本上、观念上，没有落到实际行动中。开展深度学习的研究与实践正是把握教学本质的一种积极努力，是我国课程教学改革走向深入的必需。

当前，智能机器尤其是智能化穿戴设备的大量出现，部分传统职业已被替代，甚至有人认为教师和教学也可能被替代而消失。在这样的情形下，我们不得不思考：在智能化时代，真的不需要教学了吗？真的不需要教师了吗？

如果把教学仅仅看作是知识的刻板传递的话，那么，智能技术完全可以胜任，教学和教师完全可以被智能机器替代了。

借用马云（阿里巴巴集团创始人）的话说，在一个把机器变成人的社会，如果教学还在把人变成机器，是没有出路的。蒂姆·库克（苹果公司现任CEO）说：“我不担心机器会像人一样思考，我担心的是人会像机器一样思考。

”正是由于智能机器的出现和挑战，我们必须严肃思考：教学究竟应该是怎么样的？教学存在的意义和价值究竟是什么？事实上，教学的价值和意义一直都是培养人，但智能时代让它的意义和价值更加鲜明，不能再被忽视。

因此，当机器已不只以存储为功能，而开始像人一样思考的时候，我们清醒地意识到：教学绝不是知识传递，甚至知识学习本身也只是培养人的手段，教学的最终目的是实现学生的全面发展。

因此，帮助学生通过知识学习、在知识学习中形成核心素养，在知识学习中成长和发展，成为教学的首要任务。02深度学习的内涵什么是深度学习？可以从两个层面来理解。

一个是初级层面，是针对教学实践领域的弊端提出来的，是针砭时弊的一种提法。深度学习是针对实践中存在大量的机械学习、死记硬背、知其然而不知其所以然的浅层学习现象而提出的。这里的“深度”是指学生的深度学习。

我们并不强求教师必须采用某种固定的模式或方法，而是强调，教师要用恰当的方法去引发、促进、提升学生的深度学习。在这个意义上，深度学习是浅层学习的反面，是针砭时弊的。但是，深度学习绝不只停留于这个层面。

深度学习还有另一层面的理解，即高级的层面：深度学习并不只是为了促进学生高级认知和高阶思维，而是指向立德树人，指向发展核心素养，指向培养全面发展的人。

因此，深度学习强调动心用情，强调与人的价值观培养联系在一起。每个教师都应该想：我今天的教学会给学生造成什么样的影响？能够让他有善良、正直的品性吗？会让他热爱学习吗？会影响他对未来的积极期待吗？

……总之，深度学习的目的是要培养能够“百尺竿头更进一步”、能够创造美好生活的人，是生活在社会历史进行中的、具体的人，而非抽象意义上的有高级认知和高阶思维的偶然个体。

综上，我们所说的深度学习，必须满足以下四个要点：▲深度学习是指教学中学生的学习而非一般意义上学习者的自学，因而特别强调教师的重要作用，强调教师对学生学习的引导和帮助。

▲深度学习的内容是有挑战性的人类已有认识成果。

也就是说，需要深度加工、深度学习的内容一定是具有挑战性的内容，通常是那些构成一门学科基本结构的基本概念和基本原理，而事实性的、技能性的知识通常并不需要深度学习。

在这个意义上，深度学习的过程也是帮助学生判断和建构学科基本结构的过程。

▲深度学习是学生感知觉、思维、情感、意志、价值观全面参与、全身心投入的活动，是作为学习活动主体的社会活动，而非抽象个体的心理活动。

▲深度学习的目的指向具体的、社会的人的全面发展，是形成学生核心素养的基本途径。

根据这四个要点，我们给深度学习下了一个界定：“所谓深度学习，就是指在教师引领下，学生围绕着具有挑战性的学习主题，全身心积极参与、体验成功、获得发展的有意义的学习过程。

在这个过程中，学生掌握学科的核心知识，理解学习的过程，把握学科的本质及思想方法，形成积极的内在学习动机、高级的社会性情感、积极的态度、正确的价值观，成为既具独立性、批判性、创造性又有合作精神、基础扎实的优秀的学习者，成为未来社会历史实践的主人”。

03课堂教学如何实现深度学习？1实现经验与知识的相互转化“经验”与“知识”常被看作是彼此对立的一对概念，事实上却有着紧密关联。深度学习倡导通过“联想与结构”的活动将二者进行关联、转化。

简单来说，“联想与结构”是指学生通过联想，回想已有的经验，使当前学习内容与已有的经验建立内在关联，并实现结构化；而结构化了的知识（与经验）在下一个学习活动中才能被联想、调用。

在这个意义上，“联想与结构”所要处理的正是知识与经验的相互转化，即经验支持知识的学习，知识学习要结构化、内化为个人的经验。

也就是说，学生个体经验与人类历史知识不是对立、矛盾的，而是相互关联的，教师要找到它们的关联处、契合处，通过引导学生主动“联想与结构”的活动，让学生的经验凸显意义，让外在于学生的知识与学生建立起生命联系，使经验与知识相互滋养，成为学生自觉发展的营养。

2让学生成为真正的教学主体究竟如何才能让学生真正成为教学主体呢？我们提出了“两次倒转”的学习机制。为什么要提“两次倒转”？

因为，相对于人类最初发现知识的过程而言，从根本上说，教学是一个“倒过来”的活动，即学生不必经历实践探索和试误的过程，而可以直接把人类已有的认识成果作为认识对象、学习内容，这正是人类能够持续进步的根本原因，是人类的伟大创举。

但是，如果把教学的根本性质（即“倒过来”）作为教学过程本身，那就可能造成教学中的灌输，强调反复记忆和“刷题”，无视学生与知识的心理距离和能力水平，致使学生产生厌学情绪。

因此，在强调教学的根本性质是“倒过来”的基础上，要关注学生的能力水平、心理感受，要将“倒过来”的过程重新“倒回去”，即：通过教师的引导和帮助，学生能够主动去“经历”知识发现、发展（当然不是真正地经历，而是模拟地、简约地去经历）的过程。

在这个过程中，知识真正成为学生能够观察、思考、探索、操作的对象，成为学生活动的客体，学生成为了教学的主体。

3帮助学生通过深度加工把握知识本质学生活动与体验的任务，主要不是把握那些无内在关联的碎片性的、事实性的信息，而是要把握有内在关联的原理性知识，把握人类历史实践的精华。

因此，学生的学习主要不是记忆大量的事实，而是要通过主动活动去把握知识的本质。知识的本质需要通过典型的变式来把握，即通过典型的深度活动来加工学习对象，从变式中把握本质。

同样，一旦把握了知识的本质便能够辨别所有的变式，举一反三、闻一知十。“一”就是本质、本原、原理，基本概念。当然，本质与变式需要学生对学习对象进行深度加工，这是深度学习要特别重视的地方。

4在教学活动中模拟社会实践一般而言，学生是否能把所学知识应用到别的情境中是验证教学效果的常用手段，即学生能否迁移、能否应用。

深度学习也强调迁移和应用，但我们不仅强调学生能把知识应用到新的情境中，更强调迁移与应用的教育价值。

我们把“迁移与应用”看作学生在学校阶段，即在学生正式进入社会历史实践过程之前，能够在教学情境中模拟体会社会实践的“真实过程”，形成积极的情感态度价值观，因而我们强调“迁移与应用”的综合教育价值，既综合运用知识又实现综合育人的价值，而不仅仅是某个学科知识简单的迁移。

它比一般的“迁移与应用”更广阔一些，学生跟社会的联系更强一些。5引导学生对知识的发展过程进行价值评价教学要引导学生对自己所学的知识及知识发现、发展的过程进行价值评价。例如，食物的保鲜与防腐。

过去学这个知识，学生通常要掌握“食物是会腐烂的，想让食物保鲜就要加防腐剂”这个知识点，甚至初步掌握防腐技术。但那仅仅是作为一个知识点、一个技能来掌握的。

深度学习要让学生讨论，是不是所有的食品都可以用防腐剂来保鲜？是不是防腐剂用得越多越好？这就是一种价值伦理的判断。深度学习不仅仅是学知识，还要让学生在学习知识的过程中对所学的知识进行价值判断。

不仅仅是对知识本身，还要对知识发现、发展的过程以及学习知识的过程本身进行价值判断。04深度学习的实践模型图1是深度学习的实践模型。它不是知识单元、内容单元，而是学习单元，是学生学习活动的基本单位。

过去我们的教学知道要学什么，也知道要考什么，但中间的环节，例如学习目标是怎么定的，活动是怎么展开的，我们明确知道的东西很少，所以教学中间的两个环节是“黑箱”。

深度学习就是企图把中间的这个“黑箱”打开：目标是什么？根据什么确定了这样的目标？为了达到这个目标我要设计什么样的活动？图1中的箭头看起来像是单向的，实际上应该有无数条线条，表现不断循环往复的过程。

图1中的四个形式要素跟前面讲的理论框架是内在一致的，单元学习主题实际上就是“联想与结构”的结构化的部分。单元学习目标，就是要把握知识的本质。单元学习活动是活动与体验、迁移与应用的一个部分。

因此，单元学习主题，就是从“知识单元”到“学习单元”，立足学生的学习与发展，以大概念的方式组织“学习”单元，在学科逻辑中体现较为丰富、立体的活动性和开放性。

过去的学科通常都是封闭的，现在要把它变成一个开放的、未完成的东西，有了未完成性和开放性，为学生提供探究的空间，有重新发现的空间。

单元学习目标是从学生的成长、发展来确定和表述；要体现学科育人价值，彰显学科核心素养及其水平进阶。单元学习活动要注重几个特性。首先是规划性和整体性（整体设计），体现着深度学习强调整体把握的特点。

其次是实践性和多样性，这里强调的是学生主动活动的多样性。再次是综合性和开放性，即知识的综合运用、开放性探索。最后是逻辑性和群体性，主要指学科的逻辑线索以及学生之间的合作互助。

持续性评价的目的在于了解学生学习目标达成情况、调控学习过程、为教学改进服务。持续性评价形式多样，主要为形成性评价，是学生学习的重要激励手段。实施持续性评价要预先制定详细的评价方案。

总之，对深度学习的研究，是一个对教学规律持续不断的、开放的研究过程，是对以往一切优秀教学实践的总结、提炼、提升和再命名，需要更多的教师和学者共同的努力和探索。

如何自学人工智能

。

学习AI的大致步骤：（1）了解人工智能的一些背景知识；（2）补充数学或编程知识；（3）熟悉机器学习工具库；（4）系统的学习AI知识；（5）动手去做一些AI应用；1了解人工智能的背景知识人工智能里面的概念很多，比如机器学习、深度学习、神经网络等等，使得初学者觉得人工智能很神秘，难以理解。

刚开始学习的时候，知道这些名词大致的意思就行了，不用太深究，学习过一段时间，自然也就清楚这些概念具体代表什么了。人工智能是交叉学科，其中数学和计算机编程是学习人工智能最重要的两个方面。

这些在“知云AI专栏”之前的文章“认识人工智能”，也为大家介绍过，没阅读过的同学可以去看一下。

下图为人工智能学习的一般路线：2补充数学或编程知识对于已经毕业的工程师来说，在系统学习AI之前，一般要补充一些数学或者编程方面的知识。如果你的数学和编程比较好，那么学习人工智能会轻松很多。

很多同学一提到数学就害怕，不过，学习人工智能，数学可以说是绕不过去的。在入门的阶段并不需要太高深的数学，主要是高等数学、线性代数和概率论，也就是说，大一大二学的数学知识已经是完全够用了。

如果想要从事机器学习工程师的工作，或者搞人工智能的研究，那么应该多去学习数学知识，数学好将会是工作中的一大优势。

Python是在机器学习领域非常受欢迎，可以说是使用最多的一门编程语言，因此Python编程也是需要掌握的。

在众多的编程语言中，Python是比较容易学习和使用的编程语言，学好Python也会受益很多。

3熟悉机器学习工具库现在人们实现人工智能，主要是基于一些机器学习的工具库的，比如TensorFlow、PyTorch等等。在这里推荐大家学习PyTorch。

PyTorch非常的受欢迎，是容易使用的机器学习工具库，有人这样评价PyTorch“也说不出来怎么好，但是使用起来就是很舒服”。

刚开始学习人工智能的时候，可以先运行一下工具库官网的示例，比如MNIST手写体识别等。这样会对人工智能有一个感性的认识，消除最初的陌生感。

然后可以看看里面的代码，你会发现，其实神经网络的程序并不复杂，但是会对神经网络的原理和训练有很多的疑问。这是一件好事，因为带着问题去学习，会更有成效。

4系统的学习人工智能这里的人工智能主要指机器学习，因为目前人工智能主要是通过机器学习的方式来实现的。

机器学习知识主要有三大块：（1）传统机器学习算法，比如决策树、随机森林、SVM等，这些称作是传统机器学习算法，是相对于深度学习而言的。

（2）深度学习，指的就是深度神经网络，可以说是目前最重要最核心的人工智能知识。（3）强化学习，源于控制论，有时候也翻译成增强学习。深度学习可以和强化学习相结合使用，形成深度强化学习。

在这里需要知道的是深度学习并不难学，对于一些工科的研究生，一般只需要几周就可以上手，并可以训练一些实际应用中的神经网络。但是想要对深入学习有深入理解不是容易的事情，一般需要几个月的时间。

传统机器学习算法的种类非常多，有些算法会有非常多的数学公式，比如SVM等。这些算法并不好学，因此可以先学习深度学习，然后再慢慢的补充这些传统算法。

强化学习是比较有难度的，一般需要持续学习两三个月，才能有所领悟。5动手去做一些AI应用学习过几周的深度学习之后，就可以动手尝试去做一些AI应用了，比如图像识别，风格迁移，文本诗词生成等等。

边实践边学习效果会好很多，也会逐渐的加深对神经网络的理解。

什么是深度学习与机器视觉

深度学习框架，尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2]，而人工神经网络的历史更为久远。

1989年，燕乐存（YannLeCun）等人开始将1974年提出的标准反向传播算法[3]应用于深度神经网络，这一网络被用于手写邮政编码识别。

尽管算法可以成功执行，但计算代价非常巨大，神经网路的训练时间达到了3天，因而无法投入实际使用[4]。

许多因素导致了这一缓慢的训练过程，其中一种是由于尔根·施密德胡伯（JürgenSchmidhuber）的学生赛普·霍克赖特（SeppHochreiter）于1991年提出的梯度消失问题[5][6]。

与此同时，神经网络也受到了其他更加简单模型的挑战，支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。“深度学习”这一概念从2007年前后开始受到关注。

当时，杰弗里·辛顿（GeoffreyHinton）和鲁斯兰·萨拉赫丁诺夫（RuslanSalakhutdinov）提出了一种在前馈神经网络中进行有效训练的算法。

这一算法将网络中的每一层视为无监督的受限玻尔兹曼机，再使用有监督的反向传播算法进行调优[7]。

在此之前的1992年，在更为普遍的情形下，施密德胡伯也曾在递归神经网络上提出一种类似的训练方法，并在实验中证明这一训练方法能够有效提高有监督学习的执行速度[8][9].自深度学习出现以来，它已成为很多领域，尤其是在计算机视觉和语音识别中，成为各种领先系统的一部分。

在通用的用于检验的数据集，例如语音识别中的TIMIT和图像识别中的ImageNet,Cifar10上的实验证明，深度学习能够提高识别的精度。硬件的进步也是深度学习重新获得关注的重要因素。

高性能图形处理器的出现极大地提高了数值和矩阵运算的速度，使得机器学习算法的运行时间得到了显著的缩短[10][11]。

基本概念[编辑]深度学习的基础是机器学习中的分散表示（distributedrepresentation）。分散表示假定观测值是由不同因子相互作用生成。

在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[1]。

深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。

这一分层结构常常使用贪婪算法逐层构建而成，并从中选取有助于机器学习的更有效的特征[1].不少深度学习算法都以无监督学习的形式出现，因而这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签数据更丰富，也更容易获得。

这一点也为深度学习赢得了重要的优势[1]。人工神经网络下的深度学习[编辑]一部分最成功的深度学习方法涉及到对人工神经网络的运用。

人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔（DavidH.Hubel）和托斯坦·威泽尔（TorstenWiesel）提出的理论启发。

休伯尔和威泽尔发现，在大脑的初级视觉皮层中存在两种细胞：简单细胞和复杂细胞，这两种细胞承担不同层次的视觉感知功能。受此启发，许多神经网络模型也被设计为不同节点之间的分层模型[12]。

福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构[13]。

事实上，从反向传播算法自20世纪70年代提出以来，不少研究者都曾试图将其应用于训练有监督的深度神经网络，但最初的尝试大都失败。

赛普·霍克赖特（SeppHochreiter）在其博士论文中将失败的原因归结为梯度消失，这一现象同时在深度前馈神经网络和递归神经网络中出现，后者的训练过程类似深度网络。

在分层训练的过程中，本应用于修正模型参数的误差随着层数的增加指数递减，这导致了模型训练的效率低下[14][15]。为了解决这一问题，研究者们提出了一些不同的方法。

于尔根·施密德胡伯（JürgenSchmidhuber）于1992年提出多层级网络，利用无监督学习训练深度神经网络的每一层，再使用反向传播算法进行调优。

在这一模型中，神经网络中的每一层都代表观测变量的一种压缩表示，这一表示也被传递到下一层网络[8]。

另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络（longshorttermmemory，LSTM）[16]。

2009年，在ICDAR2009举办的连笔手写识别竞赛中，在没有任何先验知识的情况下，深度多维长短期记忆神经网络取得了其中三场比赛的胜利[17][18]。

斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型，用以解决图像重建和人脸定位的问题[19]。

其他方法同样采用了无监督预训练来构建神经网络，用以发现有效的特征，此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。

这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机[20]对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。

当足够多的层数被学习完毕，这一深层结构成为一个生成模型，可以通过自上而下的采样重构整个数据集[21]。辛顿声称这一模型在高维结构化数据上能够有效低提取特征[22]。

吴恩达和杰夫·迪恩（JeffDean）领导的谷歌大脑（英语：GoogleBrain）团队创建了一个仅通过YouTube视频学习高层概念（例如猫）的神经网络[23][24]。

其他方法依赖了现代电子计算机的强大计算能力，尤其是GPU。

2010年，在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中，丹·奇雷尚（DanCiresan）和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。

这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法[10]。

截止2011年，前馈神经网络深度学习中最新的方法是交替使用卷积层（convolutionallayers）和最大值池化层（max-poolinglayers）并加入单纯的分类层作为顶端。

训练过程也无需引入无监督的预训练[25][26]。从2011年起，这一方法的GPU实现[25]多次赢得了各类模式识别竞赛的胜利，包括IJCNN2011交通标志识别竞赛[27]和其他比赛。

这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法[28]。深度学习结构[编辑]深度神经网络是一种具备至少一个隐层的神经网络。

与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到递归神经网络[29]。

卷积深度神经网络（CovolutionalNeuronNetworks,CNN）在计算机视觉领域得到了成功的应用[30]。

此后，卷积神经网络也作为听觉模型被使用在自动语音识别领域，较以往的方法获得了更优的结果[31]。

深度神经网络[编辑]深度神经网络（deepneuronnetworks,DNN）是一种判别模型，可以使用反向传播算法进行训练。

权重更新可以使用下式进行随机梯度下降求解：其中，为学习率，为代价函数。这一函数的选择与学习的类型（例如监督学习、无监督学习、增强学习）以及激活函数相关。

例如，为了在一个多分类问题上进行监督学习，通常的选择是使用Softmax函数作为激活函数，而使用交叉熵作为代价函数。Softmax函数定义为，其中代表类别的概率，而和分别代表对单元和的输入。

交叉熵定义为，其中代表输出单元的目标概率，代表应用了激活函数后对单元的概率输出[32]。深度神经网络的问题[编辑]与其他神经网络模型类似，如果仅仅是简单地训练，深度神经网络可能会存在很多问题。

常见的两类问题是过拟合和过长的运算时间。深度神经网络很容易产生过拟合现象，因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。

对此，权重递减（正规化）或者稀疏（-正规化）等方法可以利用在训练过程中以减小过拟合现象[33]。

另一种较晚用于深度神经网络训练的正规化方法是丢弃法（"dropout"regularization），即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模[34]。

反向传播算法和梯度下降法由于其实现简单，与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。

但是，这些方法的计算代价很高，尤其是在训练深度神经网络时，因为深度神经网络的规模（即层数和每层的节点数）、学习率、初始权重等众多参数都需要考虑。

扫描所有参数由于时间代价的原因并不可行，因而小批量训练（mini-batching），即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练，被用于加速模型训练[35]。

而最显著地速度提升来自GPU，因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网络训练仍然存在困难，因而深度神经网络在训练并行化方面仍有提升的空间。

深度信念网络[编辑]一个包含完全连接可见层和隐层的受限玻尔兹曼机（RBM）。注意到可见层单元和隐层单元内部彼此不相连。

深度信念网络（deepbeliefnetworks，DBN）是一种包含多层隐单元的概率生成模型，可被视为多层简单学习模型组合而成的复合模型[36]。

深度信念网络可以作为深度神经网络的预训练部分，并为网络提供初始权重，再使用反向传播或者其他判定算法作为调优的手段。

这在训练数据较为缺乏时很有价值，因为不恰当的初始化权重会显著影响最终模型的性能，而预训练获得的权重在权值空间中比随机权重更接近最优的权重。这不仅提升了模型的性能，也加快了调优阶段的收敛速度[37]。

深度信念网络中的每一层都是典型的受限玻尔兹曼机（restrictedBoltzmannmachine，RBM），可以使用高效的无监督逐层训练方法进行训练。

受限玻尔兹曼机是一种无向的基于能量的生成模型，包含一个输入层和一个隐层。图中对的边仅在输入层和隐层之间存在，而输入层节点内部和隐层节点内部则不存在边。

单层RBM的训练方法最初由杰弗里·辛顿在训练“专家乘积”中提出，被称为对比分歧（contrastdivergence,CD）。

对比分歧提供了一种对最大似然的近似，被理想地用于学习受限玻尔兹曼机的权重[35]。当单层RBM被训练完毕后，另一层RBM可被堆叠在已经训练完成的RBM上，形成一个多层模型。

每次堆叠时，原有的多层网络输入层被初始化为训练样本，权重为先前训练得到的权重，该网络的输出作为新增RBM的输入，新的RBM重复先前的单层训练过程，整个过程可以持续进行，直到达到某个期望中的终止条件[38]。

尽管对比分歧对最大似然的近似十分粗略（对比分歧并不在任何函数的梯度方向上），但经验结果证实该方法是训练深度结构的一种有效的方法[35]。

卷积神经网络[编辑]主条目：卷积神经网络卷积神经网络（convolutionalneuronnetworks，CNN）由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（poolinglayer）。

这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。

相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构[39]。

卷积深度信念网络[编辑]卷积深度信念网络（convolutionaldeepbeliefnetworks，CDBN）是深度学习领域较新的分支。

在结构上，卷积深度信念网络与卷积神经网络在结构上相似。因此，与卷积神经网络类似，卷积深度信念网络也具备利用图像二维结构的能力，与此同时，卷积深度信念网络也拥有深度信念网络的预训练优势。

卷积深度信念网络提供了一种能被用于信号和图像处理任务的通用结构，也能够使用类似深度信念网络的训练方法进行训练[40]。

结果[编辑]语音识别[编辑]下表中的结果展示了深度学习在通行的TIMIT数据集上的结果。TIMIT包含630人的语音数据，这些人持八种常见的美式英语口音，每人阅读10句话。

这一数据在深度学习发展之初常被用于验证深度学习结构[41]。TIMIT数据集较小，使得研究者可以在其上实验不同的模型配置。

方法声音误差率(PER,%)随机初始化RNN26.1贝叶斯三音子GMM-HMM25.6单音子重复初始化DNN23.4单音子DBN-DNN22.4带BMMI训练的三音子GMM-HMM21.7共享池上的单音子DBN-DNN20.7卷积DNN20.0图像分类[编辑]图像分类领域中一个公认的评判数据集是MNIST数据集。

MNIST由手写阿拉伯数字组成，包含60,000个训练样本和10,000个测试样本。与TIMIT类似，它的数据规模较小，因而能够很容易地在不同的模型配置下测试。

YannLeCun的网站给出了多种方法得到的实验结果[42]。截至2012年，最好的判别结果由Ciresan等人在当年给出，这一结果的错误率达到了0.23%[43]。

深度学习与神经科学[编辑]计算机领域中的深度学习与20世纪90年代由认知神经科学研究者提出的大脑发育理论（尤其是皮层发育理论）密切相关[44]。

对这一理论最容易理解的是杰弗里·艾尔曼（JeffreyElman）于1996年出版的专著《对天赋的再思考》（RethinkingInnateness）[45]（参见斯拉格和约翰逊[46]以及奎兹和赛杰诺维斯基[47]的表述）。

由于这些理论给出了实际的神经计算模型，因而它们是纯计算驱动的深度学习模型的技术先驱。这些理论指出，大脑中的神经元组成了不同的层次，这些层次相互连接，形成一个过滤体系。

在这些层次中，每层神经元在其所处的环境中获取一部分信息，经过处理后向更深的层级传递。这与后来的单纯与计算相关的深度神经网络模型相似。这一过程的结果是一个与环境相协调的自组织的堆栈式的转换器。

正如1995年在《纽约时报》上刊登的那样，“……婴儿的大脑似乎受到所谓‘营养因素’的影响而进行着自我组织……大脑的不同区域依次相连，不同层次的脑组织依照一定的先后顺序发育成熟，直至整个大脑发育成熟。

”[48]深度结构在人类认知演化和发展中的重要性也在认知神经学家的关注之中。发育时间的改变被认为是人类和其他灵长类动物之间智力发展差异的一个方面[49]。

在灵长类中，人类的大脑在出生后的很长时间都具备可塑性，但其他灵长类动物的大脑则在出生时就几乎完全定型。

因而，人类在大脑发育最具可塑性的阶段能够接触到更加复杂的外部场景，这可能帮助人类的大脑进行调节以适应快速变化的环境，而不是像其他动物的大脑那样更多地受到遗传结构的限制。

这样的发育时间差异也在大脑皮层的发育时间和大脑早期自组织中从刺激环境中获取信息的改变得到体现。当然，伴随着这一可塑性的是更长的儿童期，在此期间人需要依靠抚养者和社会群体的支持和训练。

因而这一理论也揭示了人类演化中文化和意识共同进化的现象[50]。公众视野中的深度学习[编辑]深度学习常常被看作是通向真正人工智能的重要一步[51]，因而许多机构对深度学习的实际应用抱有浓厚的兴趣。

2013年12月，Facebook宣布雇用燕乐存为其新建的人工智能实验室的主管，这一实验室将在加州、伦敦和纽约设立分支机构，帮助Facebook研究利用深度学习算法进行类似自动标记照片中用户姓名这样的任务[52]。

2013年3月，杰弗里·辛顿和他的两位研究生亚历克斯·克里泽夫斯基和伊利娅·苏特斯科娃被谷歌公司雇用，以提升现有的机器学习产品并协助处理谷歌日益增长的数据。

谷歌同时并购了辛顿创办的公司DNNresearch[53]。批评[编辑]对深度学习的主要批评是许多方法缺乏理论支撑。大多数深度结构仅仅是梯度下降的某些变式。

尽管梯度下降已经被充分地研究，但理论涉及的其他算法，例如对比分歧算法，并没有获得充分的研究，其收敛性等问题仍不明确。深度学习方法常常被视为黑盒，大多数的结论确认都由经验而非理论来确定。

也有学者认为，深度学习应当被视为通向真正人工智能的一条途径，而不是一种包罗万象的解决方案。尽管深度学习的能力很强，但和真正的人工智能相比，仍然缺乏诸多重要的能力。

理论心理学家加里·马库斯（GaryMarcus）指出：就现实而言，深度学习只是建造智能机器这一更大挑战中的一部分。

这些技术缺乏表达因果关系的手段……缺乏进行逻辑推理的方法，而且远没有具备集成抽象知识，例如物品属性、代表和典型用途的信息。

最为强大的人工智能系统，例如IBM的人工智能系统沃森，仅仅把深度学习作为一个包含从贝叶斯推理和演绎推理等技术的复杂技术集合中的组成部分[54]。

程序员为什么要学深度学习

费良宏：程序员为什么要学深度学习？深度学习本身是一个非常庞大的知识体系。

本文更多想从程序员的视角出发，让大家观察一下深度学习对程序员意味着什么，以及我们如何利用这样一个高速发展的学科，来帮助程序员提升软件开发的能力。

本文根据费良宏在2016QCon全球软件开发大会（上海）上的演讲整理而成。前言1973年，美国上映了一部热门的科幻电影《WestWorld》，三年之后又有一个续集叫做《FutureWorld》。

这部电影在80年代初被引进到中国叫《未来世界》。那部电影对我来讲简直可以说得上是震撼。影片中出现了很多机器人，表情丰富的面部下面都是集成电路板。这让那时候的我觉得未来世界都是那么遥远、那么神秘。

时间到了2016年，很多朋友可能都在追看HBO斥巨资拍摄的同一题材的系列剧《WestWorld》。

如果前两部电影还是局限在机器人、人工智能这样的话题，2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。

不再渲染机器人是否会威胁到人类，而是在探讨“Dreamsaremainlymemories”这一类更具哲理的问题。

“记忆究竟如何影响了智能”这个话题非常值得我们去思考，也给我们一个很好的启示——今天，人工智能领域究竟有了怎样的发展和进步。今天我们探讨的话题不仅仅是简单的人工智能。

如果大家对深度学习感兴趣，我相信各位一定会在搜索引擎上搜索过类似相关的关键字。我在Google上以deeplearning作为关键字得到了2,630万个搜索的结果。

这个数字比一周之前足足多出了300多万的结果。这个数字足以看得出来深度学习相关的内容发展的速度，人们对深度学习的关注也越来越高。从另外的一个角度，我想让大家看看深度学习在市场上究竟有多么热门。

从2011年到现在一共有140多家专注人工智能、深度学习相关的创业公司被收购。仅仅在2016年这种并购就发生了40多起。

其中最疯狂的是就是Google，已经收购了11家人工智能创业公司，其中最有名的就是击败了李世石九段的DeepMind。排名之后的就要数Apple、Intel以及Twitter。

以Intel公司为例，仅在今年就已经收购了3家创业公司，Itseez、Nervana和Movidius。这一系列大手笔的并购为了布局人工智能以及深度学习的领域。

当我们去搜索深度学习话题的时候，经常会看到这样的一些晦涩难懂的术语：Gradientdescent（梯度下降算法）、Backpropagation（反向传播算法）、ConvolutionalNeuralNetwork（卷积神经网络）、受限玻耳兹曼机（RestrictedBoltzmannMachine）等。

如打开任何一篇技术文章，你看到的通篇都是各种数学公式。大家看到如下左边的图，其实并不是一篇高水准的学术论文，而仅仅是维基百科关于玻耳兹曼机的介绍。

维基百科是科普层面的内容，内容复杂程度就超过了大多数数学知识的能力。

在这样的背景之下，我今天的的话题可以归纳成三点：第一，我们为什么要学习深度学习；第二，深度学习最核心的关键概念就是神经网络，那么究竟什么是神经网络；第三，作为程序员，当我们想要成为深度学习开发者的时候，我们需要具备怎样的工具箱，以及从哪里着手进行开发。

为什么要学习深度学习首先，我们谈谈为什么要学习深度学习。在这个市场当中，最不缺乏的就是各种概念以及各种时髦新技术的词汇。深度学习有什么不一样的地方？

我非常喜欢AndrewNg（吴恩达）曾经用过的一个比喻。他把深度学习比喻成一个火箭。这个火箭有一个最重要的部分，就是它的引擎，目前来看在这个领域里面，引擎的核心就是神经网络。

大家都知道，火箭除了引擎之外还需要有燃料，那么大数据其实就构成了整个火箭另外的重要组成部分——燃料。

以往我们谈到大数据的时候，更多是强调存储和管理数据的能力，但是这些方法和工具更多是对于以往历史数据的统计、汇总。而对于今后未知的东西，这些传统的方法并不能够帮助我们可以从大数据中得出预测的结论。

如果考虑到神经网络和大数据结合，我们才可能看清楚大数据真正的价值和意义。AndrewNg就曾经说过“我们相信（神经网络代表的深度学习）是让我们获得最接近于人工智能的捷径”。

这就是我们要学习深度学习的一个最重要的原因。其次，随着我们进行数据处理以及运算能力的不断提升，深度学习所代表的人工智能技术和传统意义上人工智能技术比较起来，在性能上有了突飞猛进的发展。

这主要得益于在过去几十间计算机和相关产业不断发展带来的成果。在人工智能的领域，性能是我们选择深度学习另一个重要的原因。这是一段Nvidia在今年公布的关于深度学习在无人驾驶领域应用的视频。

我们可以看到，将深度学习应用在自动驾驶方面，仅仅经历了3千英里的训练，就可以达到什么样的程度。

在今年年初进行的实验上，这个系统还不具备真正智能能力，经常会出现各种各样的让人提心吊胆的状况，甚至在某些情况下还需要人工干预。

但经过了3千英里的训练之后，我们看到在山路、公路、泥地等各种复杂的路况下面，无人驾驶已经有了一个非常惊人的表现。请大家注意，这个深度学习的模型只经过了短短几个月、3千英里的训练。

如果我们不断完善这种模型的话，这种处理能力将会变得何等的强大。这个场景里面最重要的技术无疑就是深度学习。

我们可以得出一个结论：深度学习可以为我们提供强大的能力，如果程序员拥有了这个技术的话，无异于会让每个程序员如虎添翼。

神经网络快速入门如果我们对于学习深度学习没有任何疑虑的话，接下来就一定会关心我需要掌握什么样的知识才能让我进入到这个领域。这里面最重要的关键技术就是“神经网络”。

说起“神经网络”，容易混淆是这样两个完全不同的概念。一个是生物学神经网络，第二个才是我们今天要谈起的人工智能神经网络。可能在座的各位有朋友在从事人工智能方面的工作。

当你向他请教神经网络的时候，他会抛出许多陌生的概念和术语让你听起来云里雾里，而你只能望而却步了。对于人工智能神经网络这个概念，大多数的程序员都会觉得距离自己有很大的距离。

因为很难有人愿意花时间跟你分享神经网络的本质究竟是什么。而你从书本上读的到的理论和概念，也很让你找到一个清晰、简单的结论。今天就我们来看一看，从程序员角度出发神经网络究竟是什么。

我第一次知道神经网络这个概念是通过一部电影——1991年上映的《终结者2》。

男主角施瓦辛格有一句台词：“MyCPUisaneural-netprocessor;alearningcomputer.”（我的处理器是一个神经处理单元，它是一台可以学习的计算机)。

从历史来看人类对自身智力的探索，远远早于对于神经网络的研究。1852年，意大利学者因为一个偶然的失误，将人类的头颅掉到硝酸盐溶液中，从而获得第一次通过肉眼关注神经网络的机会。

这个意外加速了对人类智力奥秘的探索，开启了人工智能、神经元这样概念的发展。生物神经网络这个概念的发展，和今天我们谈的神经网络有什么关系吗？

我们今天谈到的神经网络，除了在部分名词上借鉴了生物学神经网络之外，跟生物学神经网络已经没有任何关系，它已经完全是数学和计算机领域的概念，这也是人工智能发展成熟的标志。

这点大家要区分开，不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。90年代中期，由Vapnik等人提出了支持向量机算法（SupportVectorMachines，支持向量机）。

很快这个算法就在很多方面体现出了对比神经网络的巨大优势，例如：无需调参、高效率、全局最优解等。基于这些理由，SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。

在被人摒弃的十年里面，有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的GeofferyHinton教授。

2006年，他的在著名的《Science》杂志上发表了论文，首次提出了“深度信念网络”的概念。

与传统的训练方式不同，“深度信念网络”有一个“预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。

这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面，他给多层神经网络相关的学习方法赋予了一个新名词—“深度学习”。很快，深度学习在语音识别领域崭露头角。

接着在2012年，深度学习技术又在图像识别领域大展拳脚。

Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千个类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了将近11个百分点。

这个结果充分证明了多层神经网络识别效果的优越性。从那时起，深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展，就是从那个时候开始引爆的。

利用神经网络构建分类器，这个神经网络的结构是怎样的？其实这个结构非常简单，我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。

图上的每个节点借用了生物学的术语就有了一个新的名词–“神经元”。连接神经元的具有指向性的连线（有向弧）则被看作是“神经”。这这个图上神经元并不是最重要的，最重要的是连接神经元的神经。

每个神经部分有指向性，每一个神经元会指向下一层的节点。节点是分层的，每个节点指向上一层节点。同层节点没有连接，并且不能越过上一层节点。每个弧上有一个值，我们通常称之为”权重“。

通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少？我们是通过训练得出结果。它们的初始赋值往往通过随机数开始，然后训练得到的最逼近真实值的结果作为模型，并可以被反复使用。

这个结果就是我们说的训练过的分类器。节点分成输入节点和输出节点，中间称为隐层。简单来说，我们有数据输入项，中间不同的多个层次的神经网络层次，就是我们说的隐层。

之所以在这样称呼，因为对我们来讲这些层次是不可见的。输出结果也被称作输出节点，输出节点是有限的数量，输入节点也是有限数量，隐层是我们可以设计的模型部分，这就是最简单的神经网络概念。

如果简单做一个简单的类比，我想用四层神经网络做一个解释。左边是输入节点，我们看到有若干输入项，这可能代表不同苹果的RGB值、味道或者其它输入进来的数据项。

中间隐层就是我们设计出来的神经网络，这个网络现在有不同的层次，层次之间权重是我们不断训练获得一个结果。

最后输出的结果，保存在输出节点里面，每一次像一个流向一样，神经是有一个指向的，通过不同层进行不同的计算。

在隐层当中，每一个节点输入的结果计算之后作为下一层的输入项，最终结果会保存在输出节点上，输出值最接近我们的分类，得到某一个值，就被分成某一类。这就是使用神经网络的简单概述。

除了从左到右的形式表达的结构图，还有一种常见的表达形式是从下到上来表示一个神经网络。这时候，输入层在图的最下方，输出层则在图的最上方。从左到右的表达形式以AndrewNg和LeCun的文献使用较多。

而在Caffe框架里则使用的则是从下到上的表达。简单来说，神经网络并不神秘，它就是有像图，利用图的处理能力帮助我们对特征的提取和学习的过程。

2006年Hinton的那篇著名的论文中，将深度学习总结成三个最重要的要素：计算、数据、模型。有了这三点，就可以实现一个深度学习的系统。

程序员需要的工具箱对于程序员来说，掌握理论知识是为了更好的编程实践。那就让我们看看，对于程序员来说，着手深度学习的实践需要准备什么样的工具。

硬件从硬件来讲，我们可能需要的计算能力，首先想到的就是CPU。除了通常的CPU架构以外，还出现了附加有乘法器的CPU，用以提升计算能力。

此外在不同领域会有DSP的应用场景，比如手写体识别、语音识别、等使用的专用的信号处理器。还有一类就是GPU，这是一个目前深度学习应用比较热门的领域。最后一类就是FPGA（可编程逻辑门阵列）。

这四种方法各有其优缺点，每种产品会有很大的差异。相比较而言CPU虽然运算能力弱一些，但是擅长管理和调度，比如读取数据，管理文件，人机交互等，工具也丰富。

DSP相比而言管理能力较弱，但是强化了特定的运算能力。这两者都是靠高主频来解决运算量的问题，适合有大量递归操作以及不便拆分的算法。GPU的管理能力更弱一些，但是运算能力更强。

但由于计算单元数量多，更适合整块数据进行流处理的算法。FPGA在管理与运算处理方面都很强，但是开发周期长，复杂算法开发难度较大。就实时性来说，FPGA是最高的。

单从目前的发展来看，对于普通程序员来说，现实中普遍采用的计算资源就还是是CPU以及GPU的模式，其中GPU是最热门的领域。这是我前天为这次分享而准备的一个AWS上p2的实例。

仅仅通过几条命令就完成了实例的更新、驱动的安装和环境的设置，总共的资源创建、设置时间大概在10分钟以内。而之前，我安装调试前面提到的那台计算机，足足花了我两天时间。另外，从成本上还可以做一个对比。

p2.8xLarge实例每小时的费用是7.2美元。而我自己那台计算机总共的花费了是¥16,904元。这个成本足够让我使用350多个小时的p2.8xLarge。

在一年里使用AWS深度学习站就可以抵消掉我所有的付出。随着技术的不断的升级换代，我可以不断的升级我的实例，从而可以用有限的成本获得更大、更多的处理资源。这其实也是云计算的价值所在。

云计算和深度学习究竟有什么关系？今年的8月8号，在IDG网站上发表了一篇文章谈到了这个话题。

文章中做了这样一个预言：如果深度学习的并行能力不断提高，云计算所提供的处理能力也不断发展，两者结合可能会产生新一代的深度学习，将带来更大影响和冲击。这是需要大家考虑和重视的一个方向！

软件深度学习除了硬件的基础环境之外。程序员会更关心与开发相关的软件资源。这里我罗列了一些曾经使用过的软件框架和工具。Scikit-learn是最为流行的一个Python机器学习库。

它具有如下吸引人的特点：简单、高效且异常丰富的数据挖掘/数据分析算法实现；基于NumPy、SciPy以及matplotlib，从数据探索性分析，数据可视化到算法实现，整个过程一体化实现；开源，有非常丰富的学习文档。

Caffe专注在卷及神经网络以及图像处理。不过Caffe已经很久没有更新过了。这个框架的一个主要的开发者贾扬清也在今年跳槽去了Google。也许曾经的霸主地位要让位给他人了。

Theano是一个非常灵活的Python机器学习的库。在研究领域非常流行，使用上非常方便易于定义复杂的模型。Tensorflow的API非常类似于Theano。

我在今年北京的QCon大会上也分享过关于Theano的话题。

Jupyternotebook是一个很强大的基于ipython的python代码编辑器，部署在网页上，可以非常方便的进行交互式的处理，很适合进行算法研究合数据处理。

Torch是一个非常出色的机器学习的库。它是由一个比较小众的lua语言实现的。但是因为LuaJIT的使用，程序的效率非常出色。

Facebook在人工智能领域主打Torch，甚至现在推出了自己的升级版框架Torchnet。深度学习的框架非常之多，是不是有一种乱花渐欲迷人眼的感觉？

我今天向各位程序员重点介绍的是将是TensorFlow。这是2015年谷歌推出的开源的面向机器学习的开发框架，这也是Google第二代的深度学习的框架。

很多公司都使用了TensorFlow开发了很多有意思的应用，效果很好。用TensorFlow可以做什么？答案是它可以应用于回归模型、神经网络以深度学习这几个领域。

在深度学习方面它集成了分布式表示、卷积神经网络(CNN)、递归神经网络(RNN)以及长短期记忆人工神经网络（Long-ShortTermMemory,LSTM）。

关于Tensorflow首先要理解的概念就是Tensor。在辞典中对于这个词的定义是张量，是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。

实际上这个表述很难理解，用我自己的语言解释Tensor就是“N维数组”而已。

使用TensorFlow,作为程序员必须明白TensorFlow这样几个基础概念：它使用图(Graph)来表示计算任务；在被称之为会话(Session)的上下文(context)中执行图；使用Tensor表示数据；通过变量(Variable)维护状态；使用feed和fetch可以为任意的操作(arbitraryoperation)赋值或者从其中获取数据。

一句话总结就是，TensorFlow就是有状态图的数据流图计算环境，每个节点就是在做数据操作，然后提供依赖性和指向性，提供完整数据流。

TensorFlow安装非常简单，但官网提供下载的安装包所支持的CUDA的版本是7.5。考虑到CUDA8的让人心动的新特以及不久就要正式发布的现状。

或许你想会考虑立即体验CUDA8，那么就只能通过编译Tensorflow源代码而获得。目前TensorFlow已经支持了Python2.7、3.3+。

此外，对于使用Python语言的程序员还需要安装所需要的一些库，例如：numpy、protobuf等等。对于卷积处理而言，cuDNN是公认的性能最好的开发库，请一定要安装上。

常规的Tensorsorflow的安装很简单，一条命令足矣：$pip3install—upgrade如果想评估一下或者简单学习一下，还可以通过Docker进行安装，安装的命令如下：$dockerrun-it-p8888:8888TensorFlow有很多优点。

首先，目前为止，深度学习的开发框架里面TensorFlow的文档做的最好，对程序员学习而言是非常好的一点。第二，TensorFlow有丰富的参考实例，作为参考学习起来非常容易。

第三，开发者社区活跃，在任何一个深度学习的社区里，都有大量关于TensorFlow的讨论。第四，谷歌的支持力度非常大，从2015年到现在升级速度非常快，这是其他开源框架远远达不到的结果。

参考TensorFlow的白皮书，我们会看到未来TensorFlow还将会有巨大的发展潜力。让我特别感兴趣是这两个方向。第一，支持跨多台机器的parallelisation。

尽管在0.8版本中推出了并行化的能力，但是目前还不完善。随着未来不断发展，依托云计算的处理能力的提升这个特性将是非常让人振奋的。

第二，支持更多的开发语言，对于开发者来说这是一个绝大的利好，通过使用自己擅长的语言使用TensorFlow应用。这些开发语言将会扩展到Java、Lua以及R等。

在这里我想给大家展示一个应用Tensorflow的例子。这个例子的代码托管在这个网址上。

白俄罗斯的现代印象派艺术家LeonidAfremov善于用浓墨重彩来表现都市和风景题材，尤其是其雨景系列作品。他习惯用大色块的铺陈来营造光影效果，对反光物体和环境色的把握非常精准。

于是我就找到了一张上海东方明珠电视塔的一张摄影作品，我希望通过Tensorflow去学习一下LeonidAfremov的绘画风格，并将这张东方明珠的照片处理成那种光影色彩丰富的作品风格。

利用Tensorflow以及上面提到的那个项目的代码，在一个AWS的p2类型的实例上进行了一个一千次的迭代，于是就得到了下图这样的处理结果。

这个处理的代码只有350行里，模型使用了一个成名于2014年ImageNet比赛中的明星VGG。这个模型非常好，特点就是“godepper”。

TensorFlow做出这样的作品，并不仅仅作为娱乐供大家一笑，还可以做更多有意思的事情。

将刚才的处理能力推广到视频当中，就可以看到下图这样的效果，用梵高著名的作品”星月夜“的风格就加工成了这样新的视频风格。可以想象一下，如果这种处理能力在更多领域得以应用，它会产生什么样的神奇结果？

前景是美好的，让我们有无限遐想。事实上我们目前所从事的很多领域的应用开发都可以通过使用神经网络和深度学习来加以改变。对于深度学习而言，掌握它并不是难事。

每一个程序员都可以很容易的掌握这种技术，利用所具备的资源，让我们很快成为深度学习的程序开发人员。结束语未来究竟是什么样，我们没有办法预言。

有位作家RayKurzweil在2005年写了《奇点临近》一书。在这本书里面他明确告诉我们，那个时代很快到来。

作为那个时代曙光前的人群，我们是不是有能力加速这个过程，利用我们学习的能力实现这个梦想呢？中国人工智能的发展人工智能的时代无疑已经到来，这个时代需要的当然就是掌握了人工智能并将其解决具体问题的工程师。

坦率的说，市场上这一类的工程师还属于凤毛麟角。职场上的薪酬待遇可以看得出来这样的工程师的抢手的程度。人工智能这门学科发展到今天，就学术自身而言已经具备了大规模产业化的能力。

所以说，对于工程师而言当务之急就是尽快的掌握应用人工智能的应用技术。当下在互联网上关于人工智能的学习资料可以说已经是“汗牛充栋”，那些具备了快速学习能力的工程师一定会在人工智能的大潮当中脱颖而出。

中国发展人工智能产业的环境已经具备。无论从创业环境、人员的素质乃至市场的机遇而言完全具备了产生产业变革的一切条件。与美国相比较，在人工智能的许多领域中国团队的表现也可以说是不逞多让。

就人工智能的技术层面而言，中国的工程师与全球最好的技术团队正处于同一个起跑线上。时不我待，中国的工程师是有机会在这个领域大展身手的。不过值得注意的是，要切忌两点：一是好高骛远，盲目与国外攀比。

毕竟积累有长短，术业有专攻，我们要立足于已有的积累，寻求逐步的突破。二是一拥而上，盲目追求市场的风口。人工智能的工程化需要大量的基础性的积累，并非一蹴而就简单复制就可以成功。

中国的科研技术人员在人工智能领域的成就有目共睹。在王咏刚的一篇文章里面，他统计了从2013年到2015年SCI收录的“深度学习”论文，中国在2014年和2015年超已经超过了美国居于领跑者的位置。

另外一让我感到惊讶的事情，Google的JeffDean在2016年发表过一篇名为《TensorFlow:Asystemforlarge-scalemachinelearning》的论文。

文章的22个作者里面，明显是中国名字的作者占已经到了1/5。如果要列举中国人/华人在人工智能领域里的大牛，吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏……很容易就可以说出一大串。

对于中国来说目前的当务之急是人工智能技术的产业化，唯有如此我们才可以讲科研／智力领域的优势转化为整体的、全面的优势。

在这一点上，中国是全球最大的消费市场以及制造业强国，我们完全有机会借助市场的优势成为这个领域的领先者。硅谷创新企业硅谷虽然去过许多回，但一直无缘在那里长期工作。

在人工智能领域的市场我们听到的更多是围绕Google、Apple、Intel、Amazon这样的一些大型科技公司的一举一动。但是在美国市场上还有一大批小型的创业企业在人工智能这个领域有惊艳的表现。

仅以硅谷区域的公司为例：Captricity，提供了手写数据的信息提取；VIVLab，针对语音识别开发了虚拟助手服务；TERADEEP，利用FPGA提供了高效的卷积神经网络的方案；还有提供无人驾驶解决方案的NetraDyne。

这个名单还可以很长，还有许许多多正在利用人工智能技术试图去创造历史的团队正在打造他们的梦想。这些团队以及他们正在专注的领域是值得我们去学习和体会的。