2020 北京智源大会

本文属于2020北京智源大会嘉宾演讲的整理报道系列。北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性、权威性、专业性和前瞻性的“内行AI大会”为宗旨。2020年6月21日-24日,为期四天的2020北京智源大会在线上圆满举办。来自20多个国家和地区的150多位演讲嘉宾,和来自50多个国家、超过50万名国内外专业观众共襄盛会。

在 NeurIPS 2019 上,图灵奖得主、深度学习「三驾马车」之一的 Yoshua Bengio 指出深度学习需要进行从感知到认知的革命,指引研究者们尝试通过将 System 1 的快速感知系统与 System 2 的深度推理系统相结合实现更加强大的人工智能系统。

在本届智源大会上,来自 Yoshua Bengio 领导的 MILA研究院的知名华人学者唐建为大家带来了名为“Towards Integrating System I and System II for Relational Reasoning”的精彩报告,以其研究小组近期在半监督节点分类、知识图谱推理等任务上的研究进展为例,详细介绍了将感知系统与认知系统相结合的方法。

唐建,加拿大蒙特利尔学习算法研究院 (MILA) 以及加拿大蒙特利尔大学商学院助理教授、博士生导师。主要研究方向为:图表示学习、图研究网络、知识图谱、药物发现。曾获得机器学习顶级会议ICML2014的最佳论文以及数据挖掘顶级会议WWW‘16的最佳论文提名。发表了一系列在图表示学习领域的经典论文包括LINE、LargeVis、RotatE以及最近的Graph Markov Neural Networks (GMNN)。

整理:智源社区 熊宇轩

一、System 1 VS System 2 推理

首先,我们来回顾一下 System 1 和 System 2 推理的定义。

图1:System 1 vs System 2 推理

事实上,现在大多数的深度学习系统所做的工作都属于 System 1 推理,即「感知系统」。识别图像中的物体就是一种感知任务。在感知任务中,人通常是相对无意识的,这是一个快速思考的过程。但是生活中有很多任务是非常复杂的,仅仅凭借感知系统无法很好的解决这些问题。例如,对于 VQA 任务而言,给定一幅图片,我们需要基于该图的信息回答一些问题。在上图中,右侧给出了一个视觉问答系统(VQA)任务的示例——咖啡机右侧碗中的红色水果是什么?。要回答这样的复杂问题需要确定图像中不同物体之间的关系,从而进行进一步的关系推理。这就涉及到 System 2 推理(认知系统)。

认知系统是相对复杂的,它涉及到逻辑推理、知识工程、规划方法等技术,这是一个较慢的「有意识」的过程。

在本文中,我们将重点介绍如何将 System 1(感知系统)和 System 2(认知系统)用于关系推理。

图2:关系预测和推理

目前,关系推理和预测指的往往是在图数据结构和关系数据上进行预测和推理。下面我们将介绍几个典型的关系预测和推理任务:

  • 节点分类(Node classification):给定一些节点的标签(如上图中的红色、蓝色节点),预测相关节点的标签。

  • 知识图谱上的推理(Reasoning on knowledge graphs):基于已有事实推测未知事实。例如,已知 Bill Gates 是微软的联合创始人,Paul Allen 也是微软的联合创始人,从而推测以上两人是否具有朋友关系。

  • 视觉关系推理(Visual relational reasoning):对于 VQA 任务中的非图数据结构(图像和文本数据集),通过关系推理和预测回答复杂问题。

  • 多跳问答系统(multi-hop Question Answering):综合多个事实回答复杂问题,需要理解不同实体之间的关系,在关系图谱上进行推理。

在机器学习领域中,针对于关系推理于预测任务,有两套不同的学习框架,它们分别与 System 1 和 System 2 推理相对应。

其中,System 1 推理系统通过图表示学习技术(如图神经网络)将深度学习用于图数据结构,这类技术包括:

  • 节点表示方法:DeepWalk、LINE、Node2Vec 等

  • 知识图谱嵌入表示方法:TransE、TransR、RotatE 等

  • 图神经网络(GNN)

然而,System 2 推理则对应于较为传统的统计关系学习,它指的是将概率图模型与知识、逻辑相结合的一些列方法,例如:

  • 马尔科夫网络

  • 条件随机场(CRF)

  • 马尔科夫逻辑网络

其中,马尔科夫网络是将马尔科夫模型与一阶逻辑相结合的产物。下面,我们将通过几个关系预测和推理任务的例子,说明将 System 1 与 System 2 相结合。

示例 1:半监督节点分类

图3:半监督节点分类任务

节点分类是一类非常标准的简单任务。在图3中,节点的集合为 V。V是有标签节点集合和无标签节点集合的并集。是所有节点的特征的集合。在这里,节点分类任务指的是:给定一些带标签的节点,预测其余无标签节点的标签。

在统计关系学习领域中,条件随机场是一种解决节点分类问题的标准方法。CRF 定义了所有节点标签的一个联合分布。我们通过能量函数定义如下的条件概率:

其中,是定义在每条边上的势函数,分别代表节点 i、j 的标签,x_v 代表图中所有节点的特征。

传统的统计学习的优势在于,它定义了所有节点标签的联合分布,可以建模不同节点之间的依赖关系。而其缺点在于:

  • 统计关系学习需要定义势函数,因此引入了一些人为的干预。

  • 势函数通常是较为线性的,其表征能力往往有限。

  • 推理过程非常复杂,难以在线性、树状结构之外的图结构上进行推理。

基于图神经网络(GNN)的方法如今十分流行,其本质思想是为每个节点学习出一种性能优异的表征,并基于这种节点表征进一步进行标签预测任务。此时,我们通过神经信息传递(Neural Message Passing)方式学习有效的节点表征。起初, 每个节点的表征为其初始的节点特征。我们不断通过各种一层或多层图卷积网络实现信息聚合,将节点邻居与该节点的信息进行融合,从而更新节点的表征。基于这种节点表征,我们可以进一步独立地预测每个节点的标签。

图神经网络的优势在于,我们可以学习到较为有效的节点表征。并且由于我们可以使用多层非线性图卷积网络学习节点表征,这种表征模型的表达能力是很强的。然而,图神经网络的缺点在于,当我们基于已经学习到的每个节点的表征进行预测时,每个节点是独立的,并没有建模节点之间的依赖关系。

在 ICML 2019 上,唐建老师课题组与 Bengio 合作,提出了「图马尔科夫神经网络」。在这篇论文中,他们旨在将传统的统计关系学习方法与图神经网络相结合,学习到性能较好的节点表征,并对节点标签之间的依赖关系进行建模,从而发挥两者的长处。

类似于 CRF,我们首先对所有标签的联合分布进行建模,其中是这些节点的特征集合。此时,我们的目标是通过最大化观测数据的对数似然的下界。而在实际学习模型参数 φ 的过程中,由于我们只观测到了部分的节点标签,没有标签的节点此时都是隐变量,我们无法直接针对观测数据的对数似然进行优化。在这里,我们采用变分方法,转而最大化边缘似然函数的下界(证据下界)ELOB:

其中是一个用于近似无标签数据的后验分布的变分分布。

具体而言,我们基于「变分期望最大化」(Variational-EM)算法来进行优化。在 E 步中,我们固定待学习的网络 p_φ,更新变分分布从而近似真实数据的后验分布。其中代表无标签节点的实际标签,代表有标签节点的标签,为节点的特征。在 M 步中,我们固定更新从而最大化前面提到的 ELOB。在 ELOB 中,与 φ 无关,因此最大化 ELOB 相当于最大化

然而,在以往我们处理 CRF 时,直接优化这个联合似然函数也是十分困难的,因为势函数和其中的配分函数实际上是非常难以计算的。因此我们转而优化下面的伪似然函数:

在计算伪似然的过程中,我们将原始的联合似然分解为多个边缘似然之和。对于每个节点来说,我们假设其邻居节点标签已知,我们利用其邻居节点的标签信息来预测该节点的标签。

那么我们如何通过图神经网络来定义其中的一些分布呢?

在推断的过程中,我们需要使用变分分布来近似真实情况下的后验概率。在这里,我们用到了平均场方法。我们假设所有的隐变量(节点的标签未知)都是独立的,我们可以通过下面的方法将的联合分布分解为多个边缘分布的乘积:

其中,为图上所有节点的标签,为所有节点的特征。此时,我们可以通过图神经网络学习图上所有节点的特征表征,对变分分布进行参数化:

其中,为节点 n 的表征。我们基于该表征来预测节点的标签,本质上是使用图神经网络来做推理。

在 M 步中,我们的目标是最大化上图中的伪似然。我们可以使用另一个图神经网络对进行建模,即给定某节点所有邻居节点已知的标签以及节点特征时,预测当前节点的标签。

上述的两个图神经网络分别对应与推理(Inference)与学习(Learning)过程,它们通过 E 步和 M 步相互协作。其中,对应于推理网络,旨在学习节点的表征,我们可以基于这种表征来预测每个节点的标签,该网络相当于 System 1;对应于学习网络,旨在以邻居的标签为条件,对节点标签之间的依赖关系进行建模,该网络相当于 System 2。这两个网络的学习过程是相互促进的,我们可以基于推理网络为每个无标签节点预测出一个标签;基于学习网络进行标签的传递,更新无标签节点的预测标签,作为反馈/伪标签提供给推理网络(System 1),提升其训练效果。

图4:与传统节点分类算法的性能对比

我们在一些标准的节点分类任务上将 GMNN 与传统的统计关系学习算法(马尔科夫逻辑网络、关系马尔科夫网络等)和标准的图神经网络(图卷积网络、图注意力网络等)进行了对比实验。实验表明,由于 GMNN 结合了统计关系学习和图神经网络两者的优势,因此它在各项指标上都取得了最佳的性能。

示例 2:知识图谱上的推理

知识图谱可以被表征为一些三元组的集合,每个三元组都代表一些事实。知识图谱往往是不完全的,我们往往需要基于已有事实预测未知事实,这是一种标准的知识图谱推理任务。

在专家系统中,我们可以基于一些硬编码的逻辑规则进行推理。然而,逻辑规则往往并不是完全对等的,我们需要在实践中考虑逻辑规则而的不确定性。

在传统的统计关系学习领域中,马尔科夫逻辑网络完美地将概率图模型与一阶逻辑进行了结合,从而对逻辑规则的不确定性进行建模。例如,上图中蓝色的文字部分给出了三条逻辑规则,我们通过马尔科夫逻辑网络来学习每条逻辑规则的权重。在右侧的马尔科夫网络中,每个节点是一个三元组伯努利随机变量,不同的事实通过逻辑规则连接在一起。这种马尔科夫逻辑网络定义了事实的联合分布:

其中为观测到的事实,为待预测(True/False)的事实,为第 l 条规则的权重,代表符合实际情况的逻辑规则 l 的数量,该联合分布也可以表示为一个能量函数。

马尔科夫逻辑网络的优势在于:它可以通过逻辑规则利用领域知识,并对逻辑规则的不确定性建模。该网络的缺点在于:图结构较为复杂。推断较为困难。由于逻辑规则并不能完全覆盖所有的事实,因此召回率较低。

在图表示学习中,我们也可以进行逻辑推理。常见的方法为知识图谱表示方法,旨在学习每个实体、关系的嵌入,从而预测缺失的事实(例如,TransE、TransR、RotatE)。知识图谱嵌入同样也定义了所有事实的一个联合分布,但此时我们认为所有的事实都是独立的。我们将基于实体和关系的嵌入预测每个事实的真假(True/False)。其中代表头实体的嵌入,代表关系的嵌入,代表尾实体的嵌入。我们可以基于已有的知识图谱嵌入技术定义一个距离函数来定义事实为真/为假的概率。在优化过程中,我们将所有观测到的事实当做正样本,将未观测到的事实作为负样本。

使用知识图谱嵌入的优点在于:优化时可以使用 SGD 和反向传播技术,优化效率高。其劣势在于:难以利用领域知识(逻辑规则)。

示例 3:用于推理的概率逻辑神经网络

在 NeurIPS 2019 上,唐建研究组提出了「用于推理的概率逻辑神经网络」,希望将传统的基于符号逻辑规则的方法与图表示学习的方法相结合,从而同时通过逻辑规则利用领域知识,并学习较好的节点及关系表示,进行质效皆优的推断。

图5:pLogicNet 的网络定义与学习方法

在这里,我们通过马尔科夫逻辑网络对事实的联合分布进行建模,同样也利用变分 EM 算法进行优化,通过最大化观测事实对数似然的变分下界来进行学习。其中,是隐变量后验分布的变分分布。

图6:pLogicNet 的推断过程

在 E 步中,我们通过平均场变分推断来近似真实的后验分布。此时,我们假设所有的事实都是独立的,因此可以将这个联合分布分解为每个事实的边缘分布的乘积。我们使用知识图谱嵌入技术,利用实体和关系的嵌入预测每个事实的真假。

图7:pLogicNet 的学习过程

在学习过程中,我们同样选择优化伪似然函数,其优化过程与上文所述的马尔科夫逻辑网络相同。在 M 步中,我们旨在学习每个逻辑规则的权重。

因此,在 pLogicNet 中,我们也是通过 EM 算法框架来优化马尔科夫逻辑网络与知识图谱嵌入。在这个框架中,知识图谱嵌入对应于 System 1,其计算过程是较快的,我们可以基于实体和关系的嵌入快速预测事实的真假。当我们拥有了事实的预测结果后,可以将其提供给马尔科夫逻辑网络。当我们想预测某一个未观测过的事实的真假时,首先可以基于知识图谱嵌入技术预测事实的真假,然后将 System 1 的预测结果输入给马尔科夫逻辑网络进行进一步的推断和修正。之后,我们将马尔科夫逻辑网络的预测结果反过来又作为伪标签输入给知识图谱嵌入系统,使其学习到更好的嵌入,以此循环往复,直到收敛。

图8:在 FB15K 和 WN18 数据集上的链接预测对比实验结果

我们在知识图谱推理的一些对比基准上进行了实验。在实验中,我们使用了合成规则(Composition Rules)、逆向规则(Inverse Rule)、对称规则(Symmetric Rule)、子关系规则(Subrelation Rule)这四种逻辑规则。我们将 pLogicNet 与知识图谱嵌入、基于符号逻辑规则的方法进行了对比,由于我们的方法结合了前两者的优势,因此获得了更好的性能

结语

总而言之,System 1 是相对无意识的、运算较快的系统,对应于快速思维过程;System 2 更多地涉及到逻辑推理、规划等复杂任务的推理,因而是较慢的思考过程。System 1 和 System 2 可以相互促进,相互学习。我们可以基于 System 1 做出快速反应,为 System 2 提供较为初始的预测。System 2 再基于这些初始的预测结果与逻辑规则、领域知识进行更加复杂的思考,将这些推理的结果作为反馈、伪标签作为额外的监督信号提供给 System 1,从而训练出更好的 System 1。

图9:System 1 与 System 2 的融合方法

在本文中,我们主要以关系推理为例,介绍如何将这两套系统进行融合。首先,在节点表示学习任务重,我们使用图神经网络学习到较好的节点表征,再利用另一个图神经网络学习节点标签之间的依赖关系,以上两个图神经网络可以相互学习。此外,在知识图谱上的关系推理任务中,我们介绍了如何将知识图谱嵌入与传统的基于符号逻辑规则的推理相结合。

点击阅读原文,进入智源社区参与更多讨论。

MILA研究院唐建:基于图神经网络的关系推理(附视频)相关推荐

  1. ​最新综述!基于图神经网络的关系抽取技术进展

    关系抽取任务是为了预测文本中两个实体中的语义关系,是 NLP 中的重要任务.基于图的模型由于其在关系推理中的有效性和强度而被广泛采用,许多研究依赖于外部解析器将文本序列转换为依赖树来初始化图,但是,解 ...

  2. AGGCN | 基于图神经网络的关系抽取模型

    今天给大家介绍2019年6月发表在ACL上的论文"Attention Guided Graph Convolutional Networks for Relation Extraction& ...

  3. 【GNN报告】Mila实验室/蒙特利尔大学朱兆成:基于图神经网络的知识图谱推理

    目录 1.简介 2.Human Memories as Repositories of Events: Event Graph Knowledge Acquisition 背景 2022 CVPR C ...

  4. 【GNN报告】加拿大蒙特利尔唐建:图几何学习与药物发现

    1.简介 报告嘉宾:唐建(加拿大蒙特利尔算法研究院,加拿大蒙特利尔大学商学院) 报告题目:Geometric Deep Learning For Drug Discovery 报告摘要 报告人简介 唐 ...

  5. 科研实习 | 加拿大Mila实验室唐建教授招收机器学习/生物医药方向科研实习生...

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! Mila Mila 实验室是由深度学习先驱 Yoshua Bengio 教 ...

  6. ICLR 2022 | 香侬科技提出基于图神经网络的语义理解模型,获单项满分

    ©作者 | 香侬科技 来源 | 香侬科技 近日,深度学习国际顶级会议ICLR 2022向作者公布了论文录用结果.香侬科技3篇论文被大会收录,研究内容覆盖通用自然语义理解.NLP神经网络模型安全性.自动 ...

  7. WWW 2021|基于图神经网络的分级相关性匹配

    ©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 论文标题: Graph-based Hierarchical Relevance Matching Sig ...

  8. 顶会CIKM‘21论文解读:基于图神经网络的人类行为轨迹恢复模型

    摘要:本文是由华为云数据库创新Lab联合电子科技大学数据与智能实验室发表在顶会CIKM'21的文章,该文章提出首个克服人类移动轨迹数据中普遍存在的多层次周期性.周期偏移现象以及数据稀疏问题的轨迹恢复模 ...

  9. 技术分享|基于图神经网络的微服务系统调用链和日志融合异常检测方法

    基于图神经网络的微服务系统调用链和日志融合异常检测方法 微服务系统运行时环境具有高度的复杂性和动态性,由此带来的各种问题导致微服务系统常常出现各种故障.为了尽早发现故障,快速准确的异常检测方法成为保证 ...

最新文章

  1. e.printStackTrace()会导致锁死?这仅仅是打印,怎么可能?
  2. CF442C-Artem and Array【贪心】
  3. (计算机组成原理)第三章存储系统-第三节2:ROM芯片
  4. Python基础知识(四)--函数
  5. 腾讯社交广告转化率预估初探
  6. MFC列表控件(ListControl)
  7. FlexDisPlayRoom正在发货「可在线玩弄」
  8. 天线远场定义_天线近场与远场的划分(转)
  9. sql与hsql的区别以及分别怎么用!
  10. 基于涂鸦智能开发板的墨水屏座位管理器——1.电路设计篇
  11. GDK动态代理原理分析
  12. DELL笔记本插入耳机没反应
  13. windows云服务器,如何使用windows云服务器
  14. 《向上生长》读书摘记
  15. Layer 父窗口如何获得子窗口的标签元素值
  16. 非常实用的织梦dede所有标签调用方法大全
  17. PostgreSQL 10.0 preview 主动防御 - 禁止执行全表删除、更新(可配置)
  18. WS2812灯珠(五)---移植Adafruit_NeoPixel库
  19. 【测试表征】电化学循环伏安法QA
  20. 让群晖“文本编辑器”支持更多文件扩展名

热门文章

  1. java约瑟夫环 循环链表_约瑟夫环_循环链表JAVA解答
  2. lvs服务器需要开启web服务么_如何检测 Web 服务请求丢失问题
  3. php多进程共享数据库,PHP多进程环境下通过共享内存与信号量实现资源共享
  4. webpack打包缓存_【第835期】Webpack 的静态资源持久缓存
  5. 从小到大排列的数组中查找x,若x存在则删除,若不存在则添加,修改后的数组仍然有序
  6. java 获得当月天数_java中 如何获取当月的天数、指定日期的月份天数详解
  7. css变成块级元素_探讨行内元素转换为块级元素_html/css_WEB-ITnose
  8. ae制h5文字动画_AE动画在H5设计中的应用研究
  9. SSM-SpringMVC-30:SpringMVC中InitBinder的骇客级优化
  10. Windows系统一键安装zabbix agent