点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

2018年,ACM(国际计算机学会)决定将计算机领域的最高奖项图灵奖颁给Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton,以表彰他们在计算机深度学习领域的贡献。

这也是图灵奖第三次同时颁给三位获奖者。

用于计算机深度学习的人工神经网络在上世纪80年代就已经被提出,但是在当时科研界由于其缺乏理论支撑,且计算力算力有限,导致其一直没有得到相应的重视。

是这三巨头一直在坚持使用深度学习的方法,并在相关领域进行了深入研究。通过实验发现了许多惊人的成果,并为证明深度神经网络的实际优势做出了贡献。

所以说他们是深度学习之父毫不夸张。

在AI界,当Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton 这三位大神同时出场的时候,一定会有什么大事发生。

最近,深度学习三巨头受ACM通讯杂志之邀,共同针对深度学习的话题进行了一次深度专访,提纲挈领地回顾了深度学习的基本概念、最新的进展,以及未来的挑战。

广大的AI开发者们,看了高人指点之后是不是对于未来之路更加明晰了?下面我们来看看他们都聊了些什么。

深度学习的兴起

在2000年代早期,深度学习引入的一些元素,让更深层的网络的训练变得更加容易,也因此重新激发了神经网络的研究。

GPU和大型数据集的可用性是深度学习的关键因素,也得到了具有自动区分功能、开源、灵活的软件平台(如Theano、Torch、Caffe、TensorFlow等)的增强作用。训练复杂的深度网络、重新使用最新模型及其构建块也变得更加容易。而更多层网络的组合允许更复杂的非线性,在感知任务中取得了意料之外的结果。

深度学习深在哪里?有人认为,更深层次的神经网络可能更加强大,而这种想法在现代深度学习技术出现之前就有了。但是,这样的想法其实是由架构和训练程序的不断进步而得来的,并带来了与深度学习兴起相关的显著进步。

更深层的网络能够更好地概括「输入-输出关系类型」,而这不仅只是因为参数变多了。深度网络通常比具有相同参数数量的浅层网络具有更好的泛化能力。例如,时下流行的计算机视觉卷积网络架构类别是ResNet系列,其中最常见的是ResNet-50,有50层。

图源:知乎@臭咸鱼

深度网络之所以能够脱颖而出,是因为它利用了一种特定形式的组合性,其中一层的特征以多种不同的方式组合,这样在下一层就能够创建更多的抽象特征。

无监督的预训练。当标记训练示例的数量较小,执行任务所需的神经网络的复杂性也较小时,能够使用一些其他信息源来创建特征检测器层,再对这些具有有限标签的特征检测器进行微调。在迁移学习中,信息源是另一种监督学习任务,具有大量标签。但是也可以通过堆叠自动编码器来创建多层特征检测器,无需使用任何标签。

线性整流单元的成功之谜。早期,深度网络的成功,是因为使用了逻辑sigmoid非线性函数或与之密切相关的双曲正切函数,对隐藏层进行无监督的预训练。

长期以来,神经科学一直假设线性整流单元,并且已经在 RBM 和卷积神经网络的某些变体中使用。让人意想不到的是,人们惊喜地发现,非线性整流通过反向传播和随机梯度下降,让训练深度网络变得更加便捷,无需进行逐层预训练。这是深度学习优于以往对象识别方法的技术进步之一。

语音和物体识别方面的突破。声学模型将声波转换为音素片段的概率分布。Robinson、Morgan 等人分别使用了晶片机和DSP芯片,他们的尝试均表明,如果有足够的处理能力,神经网络可以与最先进的声学建模技术相媲美。

2009年,两位研究生使用 NVIDIA GPU ,证明了预训练的深度神经网络在 TIMIT 数据集上的表现略优于 SOTA。这一结果重新激起了神经网络中几个主要语音识别小组的兴趣。2010 年,在不需要依赖说话者训练的情况下,基本一致的深度网络能在大量词汇语音识别方面击败了 SOTA 。2012 年,谷歌显着改善了 Android 上的语音搜索。这是深度学习颠覆性力量的早期证明。

大约在同一时间,深度学习在 2012 年 ImageNet 竞赛中取得了戏剧性的胜利,在识别自然图像中的一千种不同类别的物体时,其错误率几乎减半。这场胜利的关键在于,李飞飞及其合作者为训练集收集了超过一百万张带标签的图像,以及Alex Krizhevsky 对多个 GPU 的高效使用。

深度卷积神经网络具有新颖性,例如,ReLU能加快学习,dropout能防止过度拟合,但它基本上只是一种前馈卷积神经网络,Yann LeCun 和合作者多年来一直都在研究。

计算机视觉社区对这一突破的反应令人钦佩。证明卷积神经网络优越性的证据无可争议,社区很快就放弃了以前的手工设计方法,转而使用深度学习。

深度学习近期的主要成就

三位大神选择性地讨论了深度学习的一些最新进展,如软注意力(soft attention)和Transformer 架构。

深度学习的一个重大发展,尤其是在顺序处理方面,是乘法交互的使用,尤其是软注意力的形式。这是对神经网络工具箱的变革性补充,因为它将神经网络从纯粹的矢量转换机器,转变为能够动态选择对哪些输入进行操作的架构,并且将信息存储在关联存储器中。这种架构的关键特性是,它们能有效地对不同类型的数据结构进行操作。

软注意力可用于某一层的模块,可以动态选择它们来自前一层的哪些向量,从而组合,计算输出。这可以使输出独立于输入的呈现顺序(将它们视为一组),或者利用不同输入之间的关系(将它们视为图形)。

Transformer 架构已经成为许多应用中的主导架构,它堆叠了许多层“self-attention”模块。同一层中对每个模块使用标量积来计算其查询向量与该层中其他模块的关键向量之间的匹配。匹配被归一化为总和1,然后使用产生的标量系数来形成前一层中其他模块产生的值向量的凸组合。结果向量形成下一计算阶段的模块的输入。

模块可以是多向的,以便每个模块计算几个不同的查询、键和值向量,从而使每个模块有可能有几个不同的输入,每个输入都以不同的方式从前一阶段的模块中选择。在此操作中,模块的顺序和数量无关紧要,因此可以对向量集进行操作,而不是像传统神经网络中那样对单个向量进行操作。例如,语言翻译系统在输出的句子中生成一个单词时,可以选择关注输入句子中对应的一组单词,与其在文本中的位置无关。

未来的挑战

深度学习的重要性以及适用性在不断地被验证,并且正在被越来越多的领域采用。对于深度学习而言,提升它的性能表现有简单直接的办法——提升模型规模。

通过更多的数据和计算,它通常就会变得更聪明。比如有1750亿参数的GPT-3大模型(但相比人脑中的神经元突触而言仍是一个小数目)相比只有15亿参数的GPT-2而言就取得了显著的提升。

但是三巨头在讨论中也透露到,对于深度学习而言仍然存在着靠提升参数模型和计算无法解决的缺陷。

比如说与人类的学习过程而言,如今的机器学习仍然需要在以下几个方向取得突破:

1、监督学习需要太多的数据标注,而无模型强化学习又需要太多试错。对于人类而言,像要学习某项技能肯定不需要这么多的练习。

2、如今的系统对于分布变化适应的鲁棒性比人类差的太远,人类只需要几个范例,就能够快速适应类似的变化。

3、如今的深度学习对于感知而言无疑是最为成功的,也就是所谓的系统1类任务,如何通过深度学习进行系统2类任务,则需要审慎的通用步骤。在这方面的研究令人期待。

在早期,机器学习的理论学家们始终关注于独立相似分布假设,也就是说测试模型与训练模型服从相同的分布。而不幸的是,在现实世界中这种假设并不成立:比如说由于各种代理的行为给世界带来的变化,就会引发不平稳性;又比如说总要有新事物去学习和发现的学习代理,其智力的界限就在不断提升。

所以现实往往是即便如今最厉害的人工智能,从实验室投入到实际应用中时,其性能仍然会大打折扣。

所以三位大神对于深度学习未来的重要期待之一,就是当分布发生变化时能够迅速适应并提升鲁棒性(所谓的不依赖于分布的泛化学习),从而在面对新的学习任务时能够降低样本数量。

如今的监督式学习系统相比人类而言,在学习新事物的时候需要更多的事例,而对于无模型强化学习而言,这样的情况更加糟糕——因为相比标注的数据而言,奖励机制能够反馈的信息太少了。

所以,我们该如何设计一套全新的机械学习系统,能够面对分布变化时具备更好的适应性呢?

从同质层到代表实体的神经元组

如今的证据显示,相邻的神经元组可能代表了更高级别的向量单元,不仅能够传递标量,而且能够传递一组坐标值。这样的想法正是胶囊架构的核心,在单元中的元素与一个向量相关联,从中可以读取关键向量、数值向量(有时也可能是一个查询向量)。

适应多个时间尺度

大多数神经网络只有两个时间尺度:权重在许多示例中适应得非常慢,而行为却在每个新输入中对于变化适应得非常快速。通过添加快速适应和快速衰减的“快速权重”的叠加层,则会让计算机具备非常有趣的新能力。

尤其是它创建了一个高容量的短期存储,可以允许神经网络执行真正的递归,,其中相同的神经元可以在递归调用中重复使用,因为它们在更高级别调用中的活动向量可以重建稍后使用快速权重中的信息。

多时间尺度适应的功能在元学习(meta-learning)中正在逐渐被采纳。

更高层次的认知

在考虑新的任务时,例如在具有不一样的交通规则的城市中驾驶,甚至想象在月球上驾驶车辆时,我们可以利用我们已经掌握的知识和通用技能,并以新的方式动态地重新组合它们。

但是当我们采用已知的知识来适应一个新的设置时,如何避免已知知识对于新任务带来的噪音干扰?开始步骤可以采用Transformer架构和复发独立机制Recurrent Independent Mechanisms)。

对于系统1的处理能力允许我们在计划或者推测时猜测潜在的好处或者危险。但是在更高级的系统级别上,可能就需要AlphaGo的蒙特卡罗树搜索的价值函数了。

机械学习依赖于归纳偏差或者先验经验,以鼓励在关于世界假设的兼容方向上学习。系统2处理处理的性质和他们认知的神经科学理论,提出了几个这样的归纳偏差和架构,可以来设计更加新颖的深度学习系统。那么如何训练神经网络,能够让它们发现这个世界潜在的一些因果属性呢?

在20世纪提出的几个代表性的AI研究项目为我们指出了哪些研究方向?显然,这些AI项目都想要实现系统2的能力,比如推理能力、将知识能够迅速分解为简单的计算机运算步骤,并且能够控制抽象变量或者示例。这也是未来AI技术前进的重要方向。

听完三位的探讨,大家是不是觉得在AI之路上,光明无限呢?

参考资料:

https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

收藏 | 评述深度学习的发展相关推荐

  1. 深度学习的发展可能已达极限!

    [编者按]回首 2018 年,身处技术圈的你是否曾反思过些什么--科技与非科技企业界限的日益模糊.技术的发展现状和前景.科技发展的正向助推到负面效应,乃至个人心态上的变化.人文.生态.社会--玩技术的 ...

  2. 深入浅出深度学习(一)深度学习的发展

    人工智能.机器学习.深度学习的关系 1. 人工智能--机器推理 利用计算机构建具有人类智力特征的复杂机器,即为通用人工智能或强人工智能,即让机器拥有人类的所有感觉.所有理智.像人类一样思考.要实现真正 ...

  3. dncnn图像去噪_深度学习图像去噪发展概述

    #深度学习图像去噪发展概述 由于深度学习,特别是卷积神经网络(CNN)在图像识别等领域取得了较好的成果,近年来,基于深度学习的图像去噪方法也被提出并得到了发展.2008年,Viren Jain等提出用 ...

  4. 深度学习计算机视觉发展简述

    深度学习计算机视觉发展简述   1995年诞生的LeNet5网络是最早的卷积神经网络之一,也是现在很多深度神经网络架构的起点.LeNet5利用卷积.参数共享.池化等操作提取图像特征,再利用全连接神经网 ...

  5. 《深度学习实战》第1章 深度学习的发展介绍

    参考书籍<深度学习实战>杨云.杜飞著 第1章 深度学习的发展介绍 介绍 python是一种非常简单易学的解释性语言.由于强大的开源库支持(numpy,scipy,matplotlib),其 ...

  6. 深度学习的发展与挑战

    本文介绍深度神经网络在不同的分类问题和接近人类水平性能的应用领域上的显著成果.讨论深度学习作为未来科学的各种疑问,揭示深度神经网络在机器执行任务方面的隐藏能力. 简介 智能系统的要求: 1.识别和处理 ...

  7. 深度学习的发展方向: 深度强化学习!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学 ...

  8. 收藏 | 图像分割深度学习从零开始学习路线

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:计算机视觉联盟 第零阶段:看分割看不懂 这个阶段典型表现 ...

  9. 【深度学习】深度学习的发展方向: 深度强化学习!

    作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学习不够智能,强化学习又太抽象.深度强化学习是两套理论体系乘风破浪以后的成团产物,其骨架来自强化学习,而灵魂由深度学习赋予.深度强 ...

最新文章

  1. this和that的区别和原理
  2. C#文件封装到Dll
  3. 神秘的中国超算:比肩高铁的世界级领先
  4. 太阳能电池基本特性实验报告_太阳能电池基本特性研究实验报告的数据处理Ini怎么?太阳能电池基 爱问知识人...
  5. 路飞学成-Python爬虫实战密训-第3章
  6. office commmunication server 2007企业版关于通讯簿共享权限问题(无法同步)
  7. 人脸检测(九)--检测器源码分析
  8. 苹果mac微软windows远程连接工具:microsoft remote desktop
  9. SSL/TLS的X.509证书
  10. mixly 添加micropython_Mixly软件下载-Mixly(米思齐图形化编程工具)官方版下载v1.04 - 欧普软件园...
  11. H5的video用法
  12. IJCAI 2022 | 即插即用分类器模块:一行代码大幅提升零样本学习方法效果
  13. 鸡啄米c语言入门,鸡啄米编程课堂-最适合程序员在线学习和参考的教程站
  14. Android EventBus的实现原理
  15. 谷歌浏览器切换页面或者隐藏页面造成定时器延缓或者停止的问题。
  16. Scrapy爬虫框架视频学习
  17. vue3+Echart
  18. 阿里巴巴集团主席马云演讲实录(图)
  19. 新型4-(3H)-喹唑啉酮类作为VEGFR-2抑制剂对肝癌细胞具有潜在活性
  20. 线程安全问题的原因和解决方案

热门文章

  1. java集合框架的接口_Java集合框架——Set接口
  2. react循环的值为什么要有key_react中为何推荐设置key
  3. python 路径格式化_Python Black 一键格式化美化代码
  4. 【script】python字符串相似度匹配
  5. python把数字逐一存入列表_python实现将range()函数生成的数字存储在一个列表中...
  6. python部分引入total值的问题_Python数据分析基础与过程综述,关键数据预处理异常点的发现与处理,python,及,流程,回顾,重点,之,值...
  7. git commit撤销_Git 实用操作:撤销 Commit 提交
  8. tiny core linux ftp,tinycore 的基本搭建,开机时间只需要1-3秒
  9. mysql查询表的列名主键_Oracle中查看所有的表,用户表,列名,主键,外键
  10. java flv转mp3_【转载】音频视频转化工具JAVE(ffmpeg的Java封装)