智源青年科学家代季峰：用“数据+知识”解决图像理解的四大挑战

2020年2月12日下午，在 “智源论坛Live | 青年科学家线上报告会”中，智源青年科学家、商汤科技执行研究总监代季峰做了题为《数据和知识双驱动的图像理解算法》的主题演讲。

代季峰，2009年和2014年分别获得清华大学自动化系的学士和博士学位，2014年至2019年间在MSRA视觉计算组工作。此外，代季峰还担任了IJCV编委会成员，AAAI 2018的Senior PC Member，ECCV 2020及CVPR 2021的Area chair。代季峰的科研领域为视觉语义理解和深度学习，他是R-FCN物体检测算法，和Deformable ConvNets可变形卷积网络的第一作者（Google Scholar引用次数分别为2400和900余次）。

在本次报告中，代季峰认为数据驱动的联结主义（Connectionist AI）和知识驱动的符号主义（Symbolic AI）有望解决当今图像理解算法的四大重要挑战：类别长尾分布、未见场景泛化、实体/关系描述、复杂认知任务。需要指出的是，这个“符号主义+联结主义”理念，在2019年北京智源大会上，中科院院士张钹曾给予了非常高的评价，认为代表了未来第三代人工智能算法的主流趋势。

所以这场报告很值得我们一读：它通过图像识别领域一线实战的生动案例，有助于我们揣摩第三代AI算法落地应用的切入点。

下面，是代季峰演讲的精彩观点。

整理：智源社区孙舶寒

纯数据驱动图像理解中四大挑战

首先，当前主流的图像理解算法是用纯数据驱动的方式训练的深度网络。这类技术的关键点在于用户不必指定被建模的领域的规则，规则是由网络从训练数据中发掘出来的。用户提供被建模领域的训练数据，基于联结主义的深度网络通过调整内部网络权重去拟合数据。这类技术的舒适区是“特定任务+大数据”。但是，在脱离“特定任务+大数据”的舒适区后，当前技术面临很多挑战。几个例子如下：

1. 类别长尾分布问题

在样本非常少的情况下，数据驱动图像理解的算法表现糟糕。而自然图像中不同类别样本符合长尾分布规律。比如：家中放置了智能管家时，管家会识别家中的物品，但是如果家中有买来的新物品，智能管家很有可能因为该物品的样本较少而影响到工作性能。

2. 泛化到未见的场景

当前纯数据驱动的算法一个核心假设是被建模的世界是相对平稳和静态的。这使得训练数据能够有效的刻画被建模的问题。或者是世界变化的速度慢到可以允许足够的新数据能够被采集加入训练，使得算法模型能够适应这种变化。但当现实世界的变化突然发生时，当前的算法就会失效。比如在自动驾驶中，会出现雨后地面反光、玻璃透明等罕见或未见的情况，现在的算法对这种情况很难有效处理。

图1: 泛化到未见的场景的挑战

3. 无法用外观或像素描述的实体/关系问题

图2中左边穿红色衬衫的男性由于手中提着两桶水而无法用手开门，所以他用脚来开门。相信我们不会把这样的样本放入训练中用于模型的学习，因此当个图片出现时，模型也无法理解“开门”这个动作。图2中最右边我们看到两个绿色的杯子，从图片整体的语义中我们理解到上图中水在杯子中而下图中水在杯子外，但是显然，理解这样的场景大部分是从生活中的习得的逻辑思维来进行判断的，从像素级别几乎无法学习到。

图2: 无法用外观或像素描述的实体/关系问题

4. 认知层面的复杂任务问题

我们看图3上图中，右边穿白色半袖的男性正在用手示意餐厅服务员将食物给穿西服的男性。如果我们提问：Why is person4 pointing at person1?这样的问题，并且试图让深度学习模型来解答这个问题，显然是非常困难的，这也是目前学术界比较头疼的一个难点，即如何赋予模型更加复杂的认知能力，而非仅仅是感知能力。

图3: 认知层面的图像问答

数据和图像双驱动法理解图像

既然从纯数据驱动算法层面我们发现有如此多难以攻克的挑战，那么该如何解决这些问题呢？讲者分享了一段认知科学家描述孩子是如何学习的文字：

“The evidence that children are already born knowing certain things is extensive. For example, babies seem to be aware already from birth of some of the physical properties of objects. A newborn infant will follow a moving object behind a screen and anticipate where and when it will reappear. She will recognize a series of different smiling faces as being similar to one another and different from a sad face.”

我们发现，孩子从出生开始已经拥有了或者很快就会拥有一部分能力，而这部分能力目前对于神经网络来说还不知如何去建模、如何去表达，这极大的限制了网络对事物的理解力。那么有什么好方法解决这个问题呢？解答这个问题之前我们先了解两个概念：Connectionist AI （联结主义人工智能）以及 Symbolic AI （符号主义人工智能）。

Connectionist AI，即深度学习的前身，它以网络的分布式来表达信息，这个网络类似于人类大脑中的神经元，信号通过连接或链路从一个节点传递到另一个节点，通过数据驱动来编码和调整网络的权重，因此其建立的模型是隐式的。
Symbolic AI，是指通过符号和它们之间的关系来表达信息，它对世界建立的模型是显式的，模型的编码是依据知识和规则，知识图谱、逻辑推理等。在目前的深度学习发展起来之前，符号主义人工智能占据很重要的地位。

我们是否可以结合两种不同的人工智能理念，来解决更广阔的问题和挑战呢？正如我们上文中提到的，孩子从出生开始会携带或者很快习得一些基本但是很重要的知识，而这些知识我们可以理解为Symbolic AI，比如外部知识（External Knowledge）：人类自步入文明时代后，所积累的数百万种知识公理，如直觉物理、领域知识、常识知识等。

如果我们有这些基础知识作为”先天指导“，以Connectionist AI 作为“后天手段”，可以做更多领域的尝试。下面我们举两个有趣的例子来开阔大家的思维。

1. Example I

第一个例子如图4:我们希望从左图中使用Connectionist AI来识别人、水瓶两个事物和喝水这个动作，使用Symbolic AI推理出瓶中有水，那么二者结合起来就能够回答图4的问题：在图片中水的位置在哪里。

图4: 如何得到图片中水的位置

2. Example II

第二个例子如图5：我们看到图5中有一个女性手中有一把手枪，她正在用手枪指着对面的男性。问题是：为什么女性要用枪指着男性呢？如果没有外部Symbolic AI指导，我们猜测可能女性想要杀掉这位男士，但是如果我们仔细看图，并且调用我们的Symbolic AI，我们发现这个场景发生在金库，因此比较容易可以猜到图中的女士想要抢劫金库。

图5: 如何理解图中的女士用枪指着男士的原因

基于数据图像双驱动法的两大技术挑战

从上面两个实例中我们可以看出，使用Connectionist AI 及Symbolic AI结合，可以做很多非常有意义的推理，当然这样的结合也很有挑战性，虽然对于人类大脑来看这两个例子是非常简单的，但是使用计算机去做出精确的推理，其技术难度是不言而喻的。

1. 给定输入，如何从大量的信息中推理出所需要的信息？

第一个挑战是：给定输入，如何从大量的外部知识库中推理出所需要的信息呢？如下图6所示：我们从枪、金库作为初始节点，从大量的数据中搜索到抢劫这个信息呢？从初始节点出发后，我们枚举了所有的可能，构建出一幅巨大的图，如何将图中的无用的边进行裁剪，迅速找到真正有意义的边，对于我们研发工作者，是一个巨大的挑战。

图6: 枚举所有可能的后得出的搜索图

2. 如何结合深度网络及先验知识来进行预测？

第二个挑战是：如何结合深度网络及先验知识来进行预测？二者结合的难点在于Connectionist AI 及Symbolic AI其本质的思想是完全不同的。Connectionist AI 更偏重隐式的表达，它更多地认为像素的某种分布组合即是某种物体的形态，我们根据这些分布来识别物体。Symbolic AI更偏重显式的表达，我们根据严谨的逻辑推演来导出结论。到目前为止，如何将完全不同的思路结合起来应用，在学术界其实暂时并没有很多有用的成果可以借鉴。

目前代季峰团队正在尝试将视觉-语言二者的表达结合起来，该成果发表在2020年的ICLR。VL-BERT 的主干网络使用 Transformer Attention 模块，并将视觉与语言嵌入特征作为输入，其中输入的每个元素是来自句子中的单词、或图像中的感兴趣区域（Region of Interests，简称 RoIs）。在模型训练的过程中，每个元素均可以根据其内容、位置、类别等信息自适应地聚合来自所有其他元素的信息。在堆叠多层 Transformer Attention 模块后，其特征表示即具有更为丰富的聚合与对齐视觉和语言线索的能力。团队希望借此在视觉常识推理、视觉问答、引用表达式理解方面做出一些尝试。

图7：VL-BERT

结语

根据上面内容，我们可以看到融合了Connectionist AI和Symbolic AI的第三代AI算法，已经通过图像识别等领域，迈开了现实应用的脚步。另一方面，正如讲者在演讲结束时所指出，Connectionist AI、Symbolic AI尽管各自领域已经发展了很多不错的成果，但它们真正的有效融合，还需要我们通过不断阅读经典、进行算法实践等方式去做更深入的探索。

智源青年科学家代季峰：用“数据+知识”解决图像理解的四大挑战相关推荐

智源青年科学家候选人 | 张祥雨：挑战自动化深度学习系统
4月16日,北京智源人工智能研究院发布"智源学者计划",宣布重点支持四类人才:智源科学家首席(CS).智源研究项目经理(PM).智源研究员(PI),以及智源青年科学家. 其中,智源 ...
倒计时三天丨NeurIPS 2020预讲会：7位智源青年科学家，21场报告
NeurIPS 2020预讲会来了 7位智源青年科学家领衔因果与学习.3D视觉神经网络架构设计.自监督与迁移扫码报名,线上会议免费注册第三十四届神经信息处理系统大会(NeurIPS 2020) ...
两位智源青年科学家榜上有名！2020青橙奖公布
9月9日,2020年阿里巴巴达摩院青橙奖获奖名单公布,包括智源青年科学家杜子东.黄高在内的10位科学家榜上有名,他们将获得总计1000万元奖金. 评审为智源青年科学家.中国科学院计算技术研究所副研究员 ...
智源青年科学家梁云：异构系统中张量计算的自动调度和优化框架
与6位图灵奖得主和100多位专家共同探讨人工智能的下一个十年长按图片,内行盛会,首次免费注册北京智源大会倒计时:9天计算机体系结构领域国际顶级会议每次往往仅录用几十篇论文,录用率在20%左右 ...
智源青年科学家张新雨：从模型平均到集成学习、迁移学习
2020年2月11日上午,在 "智源论坛Live | 青年科学家线上报告会"中,智源青年科学家.中科院系统所研究员张新雨做了题为<模型平均.集成学习与迁移学习>的主题演 ...
智源青年科学家杨植麟：为什么预处理模型XLNet比BERT、RoBERTa更加优越
在2020年2月11日下午的"智源论坛Live | 青年科学家线上报告会"中,智源青年科学家.Recurrent AI联合创始人杨植麟做了题为<Latest Advances ...
关于公示2019年度智源青年科学家征集评选结果的通知
为贯彻落实北京市支持建设世界一流新型研发机构的有关精神,深入实施人才优先发展战略,着力培育北京人工智能基础研究青年科技人才队伍,北京智源人工智能研究院(以下简称"智源研究院")于2 ...
智源青年科学家黄高：面向高效推理的深度网络结构设计
随着深度学习在工业界的广泛应用,人们对模型的关注不仅仅在于其预测精度,同时也对计算和存储效率提出了更高的要求.在提升模型效率的诸多手段中,神经网络结构创新始终是最为有效的方式之一. 2019年12月2 ...
智源青年科学家林乾：揭开人工智能的黑匣，从解答最基本的问题开始
林乾,清华大学工业工程系统计学研究中心助理教授,智源研究院"人工智能的数理基础"方向的智源青年科学家.过去几年里,林乾主要致力于从统计决策理论角度理解充分性降维问题,并取得了突破性 ...

智源青年科学家代季峰：用“数据+知识”解决图像理解的四大挑战

智源青年科学家代季峰：用“数据+知识”解决图像理解的四大挑战相关推荐

最新文章

热门文章