一：前言

NeurIPS 2019正在加拿大温哥华召开。作为机器学习领域最重要的顶会，NeurIPS一直有着很强的影响力和排名，被认为是神经计算方面最好的会议之一。

本文为大家带来了深度学习推动者、图灵奖得主Yoshua Bengio在会议上所作的报告

https://static.aminer.cn/misc/pdf/NeurIPS-11dec2019.pdf

（上面链接是演讲时的ppt）

https://www.youtube.com/watch?v=FtUbMG3rlFs

（上面链接是演讲视频）

对于进入深度学习不久的朋友们来说，直接看Bengio大佬的演讲可能会有一些困难，在这里我整理了一些演讲过程中出现的一些基础知识和一些新名词，看完作者这篇文章，相信大家看起Bengio大佬的演讲会轻松很多。

二：注意力（attention）

从注意力模型的命名方式看，很明显其借鉴了人类的注意力机制，因此，我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。

而迁移到神经网络中的attention机制是用最大的概率来表示聚焦，用小于最大概率的其他概率来表示抑制其他的信息的程度。

三：因子图（factor graph）

所谓factor graph(因子图)，就是对函数因子分解的表示图，一般内含两种节点，变量节点和函数节点。我们知道，一个全局函数能够分解为多个局部函数的积，因式分解就行了，这些局部函数和对应的变量就能体现在因子图上。比如，我现在有一个全局函数，其因子分解方程是

并且Factor Graph 是概率图的一种，在因子图中，求某个变量的边缘分布是常见的问题。这说明了由因子图可以求出概率的边缘分布（也就对应着Bengio大佬所说的意识的关键是定义边界，而刚好因子图可以求边缘的概率，很契合他的说法）。

四：元学习（meta learning）

一般来说，在我们的认知里学习通常大概率后面跟的是知识，但元学习的机制很有意思，它是一种学习学习的机制（learn to learn），尝试教会我们怎么学习，这种机制也可以推广到我们的神经网络中，在元学习中我看到一个这个例子，能很好的理解元学习：

Few shot learning：意思是使用很少的样本来实现分类or回归任务

如图：

整个训练步骤大概是这样子的：先给定一个training set，训练的目的不是为了提取特征然后识别图中的是什么，而是学习到图和图之间的相似性。

然后给一个图片（Query）（这张图片的物种在training set中没有），这张图片是没有在training set集中出现的物种类型，然后给定一个support set（一定是一个很小的集合），来供模型进行对比，从而通过推理学习到新的物种知识。

Few shot learning就是元学习中的一种

元学习就可以用这张图来展示，一个小孩子没有见过眼前的动物，但他有学习过如何识别不同的动物（也就是模型在训练集上训练的结果），

然后给他下面的图片（support set），然后他是不是就能通过对比卡片认出是什么物种了？，这就是学会学习的过程，可以迁移到新的领域，不必受困于学习到的旧知识。

五：因果发现（causal discovery）

我们给出一个背景：很多科学都需要通过观测一组变量或者对其中一些变量进行干预试验，发现其中的因果关系，从而改造世界，对应于因果关系之梯的三个层级：观测，干预，反事实。通常情况下我们只有观测到的数据，传统的机器学习方法着重于对已观测数据的归纳总结，只是找出了变量之间的相关关系，训练出的模型也只能应对已观测过的情况，泛化能力不足以应对真实世界复杂的场景。如果想知道一个变量对另一个变量的影响，就需要做干预试验，最常用的有控制变量法和随机对照试验。控制变量法的最大缺陷在于无法确定变量控制的粒度，可能控制了不该控制的变量，没有控制应该控制的变量。随机对照试验则只关心假设的因果变量，其它变量都随机化处理，在期望情况下不影响因果变量之间的效应。但是干预试验都需要做大量的试验，可能在技术、伦理等方面不可行。因果发现就是要在已观测数据和少量甚至没有干预数据的情况下，发现变量之间的因果关系，以便推测当原因变量改变为未观测过的情况时，结果变量会是怎样的情况。

$\sigma$

六：独立同分布（IID independent and identically distributed）与OOD（out of distribution）：

随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值.随机变量X1和X2同分布,意味着X1和X2具有相同的分布形状和相同的分布参数,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。反之，若随机变量X1和X2是同类型分布，且分布参数完全相同，则X1和X2完全一定同分布！（比如说概率论中有两个变量同为泊松分布或者正态分布就可以说两个变量同分布）

一句话理解独立同分布：训练数据和测试数据应该是满足独立同分布的，只有这样通过训练数据获得的模型才能够在测试集获得一个很好的效果。

OOD是脱离独立同分布的概念的，如下图

是一个标准正态分布，在理想状态下分布都会符合‘3 $\sigma$ ’原则，但在实际情况下一些被理想状态下抛弃的低概率事件也是会发生的，而且影响力一般很大，所以Bengio大佬说我们也要考虑低概率事件，不能单纯考虑IID还要考虑OOD。

七：智能体（Agent）

1、Agent定义

通常，我们可以把Agent理解为“个人软件代理”，Agent是一种在分布式系统或者协作系统中，能够持续自主地发挥作用的计算实体，简称为“智能体”。广义上，Agent指具有智能的任何实体，可以是计算机硬件和自能软件。

2、Agent的特性

（1）、自治性(Autonomy)。Agent可以在没有人或者其他Agent干预的情况下运作，而已对自己的行为和内部状态有控制能力，可以自主调整状态或者作出行为。

（2）、社交能力(Sociability)。Agent和其他Agent通过某种语言（Agent语言，即就像人类一样需要语言才可以交互让对方明白你在说什么）进行交互。

（3）、反应能力(Reactivity)。Agent观察其生成环境，并在一定时间内做出反应，以改变环境。

（4）、预动能力(Pre-activencess)。Agent不仅能够对简单的环境做出反应，而已能够通过间接的信息作出特殊的有目标性的行为。

Agent除具备以上特性外,还应具备如：知识、信念、义务、意图等特性。

八：参考资料

1：报告简介：【NeuIPS 2019】清华大学计算机系唐杰教授解读Yoshua Bengio报告：如何用深度学习来实现System2？_AMiner2006的博客-CSDN博客

2：注意力（attention）：soft attention and self attention_wangjin_bupt的博客-CSDN博客

3：因子图（factor graph）：因子图（factor graph）_wydbyxr的博客-CSDN博客_factor graph

4：元学习（meta learning）：https://www.bilibili.com/video/BV1aT4y1u7e6?spm_id_from=333.1007.top_right_bar_window_default_collection.content.click

5：因果发现（causal discovery）：论文总结——因果发现与推断_yml666的博客-CSDN博客_因果发现

6：独立同分布（IID independent and identically distributed）与OOD（out of distribution）：独立同分布IID(independent and identically distributed)_dongyu1703的博客-CSDN博客_iid是什么意思

7：智能体（Agent）：

Agent系列（一）什么是Agent_HADES@OAK-CSDN博客_agent是什么

【NeurIPS 2019】Yoshua Bengio报告：深度学习系统从1代到2代中的基础知识相关推荐

AI 架构师 Yoshua Bengio：深度学习的研究，对于工业应用来说太过简单
2020 年 1 月 6 日 17:55 拍摄:Maryse Boyce Yoshua Bengio( https://mila.quebec/en/person/bengio-yoshua/ )被称 ...
Yoshua Bengio：深度学习如何实现系统进化？
2020-09-02 01:27:20 作者 | 青暮.彩娴.大鑫编辑 | 陈彩娴 8月29日至30日,主题为"智周万物"的2020年中国人工智能大会(CCAI 2020)在位于 ...
图灵奖得主Bengio：深度学习让AI得以推理和想象，不会被取代
导读:机器会有意识吗?深度学习能否知道事情发生的因果关系?12月11日,图灵奖得主Yoshua Bengio在NeurIPS 2019大会上发表演讲,题目是<从系统1深度学习到系统2深度学习&g ...
图灵奖得主 Bengio：深度学习不会被取代！
编译 | Just 出品 | AI科技大本营在1990年代那个漫长而寒冷的AI寒冬期,大多数人认为神经网络是一条研究的死胡同,Yoshua Bengio等研究者却仍坚持不懈地进行着该领域的研究. 最 ...
图灵奖得主Bengio：深度学习不会被取代，我想让AI会推理、计划和想象
编译 | Just 出品 | AI科技大本营(ID:rgznai100) 在1990年代那个漫长而寒冷的AI寒冬期,大多数人认为神经网络是一条研究的死胡同,Yoshua Bengio等研究者却仍坚持不 ...
因特理臻深度学习系统培训教程
因特理臻深度学习系统培训教程系统一词来源于英文system的音译,即若干部分相互联系.相互作用,形成的具有某些功能的整体.因特理臻深度学习课程构成一个整体. 课程模块设计承前启后,环环相扣,以神经网 ...
首次解密小红书“种草”机制：大规模深度学习系统技术是如何应用的
AI 引领的新一代信息技术,正驱动新一轮科技浪潮席卷而来.作为近年来国内发展最为迅速的移动互联网平台之一,小红书乘势而上,目前已经形成了以图文和短视频内容为主的超大型 UGC 社区.在这个独特而活跃的 ...
Facebook开发深度学习系统，如同大师一样玩音乐
内容来源:ATYUN AI平台 Facebook的研究人员开发了一种深度学习系统,可以复制它听到的音乐,将其回放,就好像它是莫扎特,贝多芬或巴赫一样.这是研究人员首次在乐器,风格和流派之间制作高保真音 ...
谷歌新深度学习系统可以促进放射科医生的发展
编译 | 禾木木出品 | AI科技大本营(ID:rgznai100) 谷歌人工智能研究人员团队在<自然>上发表了一篇新论文,深度学习可以检测出异常胸部 X 光片,其准确度可与专业放射科医 ...
智源青年科学家候选人 | 张祥雨：挑战自动化深度学习系统
4月16日,北京智源人工智能研究院发布"智源学者计划",宣布重点支持四类人才:智源科学家首席(CS).智源研究项目经理(PM).智源研究员(PI),以及智源青年科学家. 其中,智源 ...

【NeurIPS 2019】Yoshua Bengio报告：深度学习系统从1代到2代中的基础知识