2019-10-10 17:48:48

过气30年的老理论,能不能变成颠覆世界的新趋势?CNN之父Yann LeCun一定会说,能!因为他在1989年发布的全球第一个CNN框架LeNet-5,就是源自1950、1960年代的理论,但是,采取了全新的视野,反而掀起了现代深度学习的新革命。

约1970年晚期,当时在巴黎高等电子工程师学校就读大二的Yann LeCun,偶然读到一本书,提到了皮亚杰(Jean Piaget)研究的机器学习模式“感知器”(Perceptron),“这是我第一次接触到机器学习的概念。”他回忆。

这类机器学习理论起源,可以追溯到1950年代。当时,Frank Rosenblatt运用mcCulloch-Pitts人造神经元(Artificial neuron),仿效人类大脑的生物结构,在1957年创造出感知器神经网络。由于人脑是由神经元连接构成的大型网络,感知器模型也是立基于这个概念,以人造神经元来构建类神经网络,通过相对简单的运算单元,来计算输入(input)的权重总和,并且通过修改神经元之间的连接来进行机器学习。

Yann LeCun比较,传统机器学习的典范是创建一个特征提取器(Feature Extractor)抽取特征,再创建可训练的分类器(Trainable Classifier),比如感知器模型,“这是一种单层神经网络的模式。”

后来,机器学习的典范改变了,从单层神经网络,发展到了多层神经网络架构(multi-layer)的深度学习。深度学习的多层神经网络设计中,可以指定每一层神经网络学习不同的特征,如第一层负责从图像的单个像素学习线条的走向、第二层结合第一层来学习识别简单形状,每提高一层就学习更多特征。

Yann LeCun表示,因为感知世界的本质,就是由多个细节组件组合而成,比如物体可拆分为数个主要部分,主要部分由次要部分所组成,次要部分又能解构为多个基本对象,基本对象由边缘组成,边缘又包含许多像素。因此,如果想要识别图片中的汽车,可以先侦测是否有圆形物体,推论出可能有轮胎或类似的东西,一层层判断特征再做决策,“这就是所谓的深度学习。”

“但,为何多层神经网络的概念早就出现,却没有发展?”Yann LeCun自己的答案是,人们选错了“神经元”来发展神经网络,早期的二元神经元(binary neuron)因为不需用到乘法而容易执行运算,但也阻止人们联想到运用梯度模式来发展多层神经网络的训练方法。直到1986年,深度学习之父Geoffrey Hinton等人提出“反向传播算法”(Backpropagation)来训练多层神经网络,才让深度学习的研究重新复苏。

但是,当还是大学生的Yann LeCun对此产生兴趣,开始寻找些文献来阅读时,机器学习迎来了第一次寒冬。

钻研多层神经网络,在1989年提出首个CNN框架LeNet-5

“机器学习重新受到关注后,看着那些旧论文,我最感兴趣的是,如何训练多层的神经网络?所以,我开始朝这个方面研究。”Yann LeCun在多伦多大学担任博士后研究生时,直接拜师Hinton,从事深度神经网络的研究,接着在1988年,进入了贝尔实验室的自适应系统研究部门,不久后就发布了经过反向传播训练的首个CNN框架LeNet-5,不仅是深度学习最基础的框架之一,也验证了CNN架构的可行性。

Yann LeCun提出的CNN框架LeNet-5,运用了大脑视觉皮层神经元结构,以及K.Fukushima在1980年代提出的神经网络Neocognitron的概念。LeNet-5在不含输入与输出层的前提下,总层数有6层,分别为C1卷积层、S2池化层、C3卷积层、S4池化层、C5卷积层、F6全连接层,再输出结果。尽管层数不多,但其中的卷积(Convolution)、池化或子采样(Pooling or Sub Sampling)、全连接层(Fully connection),都是现今CNN模型的基本元素。

当年,Yann LeCun将LeNet-5框架用来创建了一个能识别手写文本的技术。这个技术在1994年被NCR公司(ATM设备大厂之一)应用在支票识别系统中,全盛时期,美国10%至20%的支票的判读,都用到了这个技术。

Yann LeCun屡屡提到当年深度学习如何走出第一次寒冬的关键,他认为,实证经验可以证明新科技的有效性。例如,深度学习的神经元观念就来自生物学对大脑研究的实证经验,但是,实证经验往往发展太慢又太昂贵,“创建理论,可以让我们修剪经验的摸索空间,避免遥不可及的目标(例如永动机),有时理论甚至可以帮我们预测现象。”

可是,一度成为全球金融交易的关键技术、死灰复燃的深度学习,却又再次碰壁!到了1990年代末期,深度学习的研究再次没落。

Yann LeCun认为,造成机器学习进入寒冬有4大因素。首先,是硬件资源难以进行浮点运算,光是训练一个字符识别模型就要花费两周时间;再者,是缺乏训练数据,除了字符和语音数据之外,没有其他的大型数据集;第三,则是没有实用的软件开发工具,都必须从头开始创建;最后,则是没有开放数据、开源框架的概念,导致研究进程缓慢。

甚至,Yann LeCun自己跳下来,开始设计AI专用的加速芯片硬件,从1986年发布的12×12数组处理芯片,到1992年的ANNA芯片,已经可以加速运算64×64层网络的CNN训练。不过,深度学习研究的进展依然缓慢,学界也不看好。

坚持深度学习研究,用十年寒冬奠定图片识别基础

在其后十年间,Yann LeCun仍不放弃,持续研究CNN的框架,从理论和实证来寻找新的突破点。在1993年到2005年间,Yann LeCun用CNN模型来侦测图片中的多个人脸或行人;而在2000年代中期,也用来开发能侦测障碍物的自驾小车,不仅标注出摄影机画面的每个像素可否行驶,来训练模型,也运用立体视觉系统,来标记更大范围的图片,借此来规划长途行进路线,在闪避障碍物的同时,也维持大方向行进路线不变。

约在2009、2010年时,Yann LeCun将CNN模型部署到硬件设备FPGA芯片中,在训练数据中标注出道路、人行道、建筑物、树木、汽车、行人等所有物体,以每秒20帧的速度进行图片识别,并在纽约大学中测试,初步实现了自动驾驶汽车的技术架构。“当时运用的技术,与现今许多自动驾驶系统使用的技术,本质上很相似,都通过测量与障碍物的距离来闪避。”

最终让深度学习重获大众目光的转折,发生在2012年,Yann LeCun的同门师弟Alex Krizhevsky、Ilya Sutskever在Hinton带领下,使用Nvidia的GPU,来训练同为CNN架构的AlexNet图片识别模型,一举拿下ImageNet的冠军,正确率更超过第二名将近10%。因为硬件的进步与技术的成熟,深度学习再次复苏,应用也更趋多样,“比如语音识别系统,从原先完全不使用神经网络,在短短几年内就几乎都已经采用。”

在这之后,研究者也开始增加CNN框架的层数,来增加识别准确率。若以ImageNet数据集,来测试运用不同框架所训练的模型的误判率,可以发现8层架构AlexNet所训练的模型,图片识别的误判率有16.4%,但用19层架构的VGGNet来训练,误判率只剩7.3%,22层的GoogleNet则是6.7%,而层数急剧上升到152层的ResNet,误判率更是降至3.6%,说明了层数越多,可能达到更高的正确率。

接下来的故事,大家都很清楚了,现在不只百层,结合了云计算运算和各种AI专用芯片,上千层的运算都做得到。但凡医疗图片分析、自动驾驶汽车、脸部识别、语言翻译、语音助理、游戏、安全、科学研究等领域的各式AI应用大量出现。

但是,如此威力强大的深度学习,距离具有常识能力的“AI”有多远?这就是Yann LeCun在ICIP开讲要披露的事。

30年前过气老论文,为何能催生革命全球的CNN框架?相关推荐

  1. 30年前的热门研究,今获经典论文奖,贝叶斯网络之父旧论文「考古」

    机器之心报道 编辑:魔王.蛋酱.张倩 一篇 30 年前的论文,因为一次获奖,又重新出现在世人眼前. 近日,图灵奖得主.贝叶斯网络之父 Judea Pearl 在推特上提到,自己在三十年前与当时的博士生 ...

  2. Jürgen Schmidhuber回顾30年前旧作,称其启发了现今流行的很多概念

    来源:机器之心本文约3300字,建议阅读7分钟本文回顾了 30 年前其团队发表的关于利用人工进行规划和强化学习的研究工作. 现今流行的生成对抗网络(GAN)只是对抗好奇心的一种特例?在近日 Jürge ...

  3. 30年前未曾发行的任天堂红白机游戏,被这个团队从21张软盘中重新恢复了,还是3D的...

    晓查 白交 发自 凹非寺  量子位 报道 | 公众号 QbitAI 秘密尘封30年,连游戏的开发者也已经去世8年. 恐怕没有人会想到一款任天堂红白机(NES)在一群游戏爱好者的努力恢复下,竟然又能重见 ...

  4. 三个开源工具搞定 100 年前的老视频复原!就是这么强大!

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 作者 | OSC神秘老司机 来源 | https://w ...

  5. 老款诺基亚java都市恋爱养成_居然让我翻到了近十年前的老诺基亚,竟然还能用...

    原标题:居然让我翻到了近十年前的老诺基亚,竟然还能用 看到它,让我想起将近十年前,我存了半年的零花钱,花了将近2000大洋,才买来这台诺基亚5310音乐手机,后来用了几年后,换了新的手机,就把它放在我 ...

  6. 30年前,钱学森就给VR取了个中国味特浓的名字

    元宇宙可谓是近期最火的一个概念了.不过你知道吗,早在30年前,世界著名科学家.中国两弹一星功勋奖章获得者钱学森可能就预言过元宇宙了! 要说当下最火的概念,元宇宙当占一席.截至11月17日,天眼查APP ...

  7. NB-IoT/LoRa是新技术?其实30年前就已经出现了

    NB-IoT/LoRa是新技术?其实30年前就已经出现了 导  读 NB-IoT/LoRa这些低功耗广域网络技术并非新的事物,30多年前在蜂窝网络还未商用之时,一些行业就采用M2M方式来给低速率终端联 ...

  8. 30年前的中专相当于现在什么学历?比现在一本厉害吗?

    30年前的就是1990年以前,当时的中专其实分为两种,一种是由初中毕业考入中专,一种是高中毕业考入的中专.作为当时的过来人,我1986年初中毕业就考过中师,虽说文化成绩够分,但复试没有通过.之后上的高 ...

  9. mysql查询1999年后出生的_超级珍贵的30年前老照片,1999年前出生的看到一半泪奔了!...

    原标题:超级珍贵的30年前老照片,1999年前出生的看到一半泪奔了! 70.80年代 是一个逐渐被人遗忘的时代 是一个物质仍然缺乏的时代 却是个所有劳动 都富有生命意义的时代 那时,大家都是骑自行车上 ...

最新文章

  1. try、catch、finally 和 throw-C#异常处理
  2. Java 10:“ var”关键字
  3. py2中存储的pickle和py3中pickle无法读取的兼容性问题解决方案
  4. (转)20个令人惊叹的深度学习应用
  5. C#的发展历程第五 - C# 7开始进入快速迭代道路
  6. 如何使用Movavi Academic制作出实用的互动视频
  7. oracle脑裂复现,Oracle rac集群环境中的特殊问题
  8. python 阿里云短信接口_阿里云短信接口 (Python)
  9. 运行计算机名找不到打印机,电脑找不到打印机怎么解决
  10. PNP与NPN三极管开关特性
  11. HTML5期末大作业:蛋糕甜品网站设计——蛋糕甜品店铺(11页) HTML+CSS+JavaScript 关于美食甜品的HTML网页设计
  12. 控制器c语言编程,如何用C语言对DMA控制器编程 - 全文
  13. 我的数模之旅(开始)
  14. 【你晓得伐】Solr的LIR是个什么东东
  15. 宝塔服务器性能跑分排行榜(CPU/内存/系统)
  16. 为知笔记Windows端使用报告
  17. amd显卡怎么设置风扇?
  18. 零知识证明之 SnarkJS 入门
  19. AC 混合牛奶 (模拟)
  20. 你知道什么是 短路与 和 短路非吗 ???

热门文章

  1. python codecs模块
  2. pandas loc()与iloc用法
  3. 如果你要对一个变量进行反向传播,你必须保证其为Tensor
  4. Python : *号和**号的使用
  5. tensorflow2.0中valid_data的作用是在训练的过程对对比训练数据与测试数据的准确率 损失率,便于判断模型的训练效果:是过拟合还是欠拟合(过拟合)
  6. 深度学习中的线代基础
  7. 一个小框架的形成原理(一)jdom
  8. 图灵奖得主Judea Pearl :从“贝叶斯网络之父”到“AI社区的叛徒”
  9. 用《R数据科学》学习一套数据处理语法
  10. 世界级安全技术专家力作——《Linux防火墙》