• 论文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning
  • 出版:EMNLP 2019
  • 关键词:基于路径的知识图谱推理,深度强化学习,图注意力机制,LSTM,知识图谱补全

摘要

知识图谱(KG)推理旨在找到关系的推理路径,以解决 KG中的不完整性问题。许多以前的基于路径的方法(例如PRA和DeepPath)都缺少记忆组件,或者陷入了训练过程中。因此,它们的表现总是依赖于良好的训练。

在本文中,我们提出了一个基于 AttnPath 的基于深度强化学习的模型,该模型将 LSTM 和图注意力机制作为记忆组件。我们定义两个指标,平均选择率(MSR)和平均替换率(MRR),以定量地衡量学习查询关系的难度,并在强化学习的框架下利用它们来微调模型。同时,提出了一种新的强化学习机制,即通过强制智能体每走一步来避免智能体不断停滞在同一实体节点上。基于此操作,所提出的模型不仅可以摆脱预训练过程,而且与其他模型相比也能达到最新的性能。

我们在具有不同任务的 FB15K-237 和 NELL995 数据集上测试了我们的模型。大量的实验表明,我们的模型在许多当前最先进的方法中均有效且具有竞争力,并且在实践中也表现良好。

1 介绍

主要有三种方式执行知识图谱推理,基于规则、基于嵌入和基于路径的方法。同时,知识图谱推理提供了一种视角:将深度强化学习带入到预测缺失链接到任务中。

例如 DeepPath,一个基于路径的方法,它是第一个将深度强化学习集成到知识图谱推理任务中的工作。相比于 PRA,它仍然有一些缺陷: - 缺乏记忆组件,导致需要预训练。预训练要求提供许多已知的或存在的路径用于模型训练。这种暴力操作可能使模型在用于预训练的路径上过拟合。 - 训练过程中为知识图谱中不同的关系设置同样的超参数是不合理的,它忽略了实体之间连接的多样性。 - 当智能体选择无效的路径时,它将停止并重新选择,可能导致不断选择无效的路径并最终卡在一个结点上。

因此,在该文中,作者提出一种新的深度强化学习模型和一个算法,试图解决上述问题。该方法属于基于路径的框架中。该文的贡献主要是:

  • 提出一种模型 AttnPath,集成 LSTM 和图注意力作为记忆组件,并不再需要预训练。
  • 定义了两个度量标准(MSR和MRR),以定量地度量学习关系的可替换路径的难度。该度量用于微调模型。
  • 提出了一种新的强化学习机制,通过强制智能体每走一步来避免智能体不断停滞在同一实体节点上。

3 AttnPath:集成记忆组件

3.1 知识图谱推理的强化学习框架

因为使用强化学习作为序列决策模型的训练算法,作者首先介绍知识图谱推理中的强化学习框架的基本元素。包括环境、状态、行为和奖励。

环境:在该任务中,环境指的是整个知识图谱,排除查询关系和逆关系。环境在整个训练过程中保持不变。 状态:智能体的状态由三部分拼接而成,嵌入部分、LSTM 部分、图注意力部分。 不同于 DeepPath 使用 TransE 作为知识图谱嵌入模型,AttnPath 使用 TransD 模型。状态的嵌入部分可描述为:

状态的 LSTM 部分和图注意力部分在后文描述。

行为:对于知识图谱推理任务,一个行为指的是一个智能体选择关系路径前进。基于深度强化学习的框架,它根据模型提供的概率选择关系。行为可能是有效的或无效的。有效的行为表示有输出关系是与当前实体相连的关系,而无效的关系表示该实体没有对应的关系。

奖励:奖励是根据行为是否有效、或者一系列行为是否能在有限步骤内导向正确的尾实体,而给予智能体的反馈。

对于无效的行为,奖励是 -1. 对于不引向真实实体的行为,作者选择 ConvE 的输出作为奖励。因为 ConvE 输出概率,在 (0, 1) 之间,作者使用对数操作将奖励的扩大并提升可辨别性。

对于引向真实实体的行为,即成功的事件,奖励是全局准确性、路径高效性、路径多样性的加权和。按照惯例,将全局准确性设置为 1,并且路径效率是路径长度的倒数,因为我们鼓励智能体尽可能少地走步。路径多样性定义为:

其中 |F| 是找到的路径的数量,p 是路径的嵌入,简单地定义为路径中所有关系嵌入的和。

上面的定义保证了有效动作的奖励总是大于无效动作的奖励,而成功的事件的奖励总是大于不成功的事件的奖励。

3.2 LSTM 和图注意力作为记忆组件

在模型中,作者使用三层 LSTM,使智能体能记忆并从记忆中学习之前执行过的行为。将第 t 步的隐藏状态是记为 h_t,初始隐藏状态为 h0,我们可得:

这就是状态的 LSTM 部分。

通常而言,一个实体有多个方面,例如表示一个人的实体可能有职业和家庭成员两种角色。对于不同的查询关系,较好的方式是让智能体关注于与查询关系更加相关的关系与邻居。

因此,作者引入了图注意力机制。GAT 是在实体结点的自注意力。图注意力机制部分的描述如下:

智能体选择一个动作并获得奖励。在成功到达尾部实体或未达到指定的次数后,整个事件的奖励将用于更新所有参数。使用 REINFORCE 算法完成优化,并使用以下随机梯度更新θ:

上面图 1 展示了强化学习框架,相比于 DeepPath 的关键创新是集成了 LSTM 和图注意力机制。读到这里,请再读一遍该论文原文的标题。

3.3 平均选择/替换率

对于不同的查询关系,需要为每个查询模型训练不同的模型。实际上,每种关系的难度值都完全不同。某些关系可能具有更多的替换关系,这表明智能体可以轻松选择从头部实体到尾部的替换路径。因此,我们在这里发明了两个指标,均值选择率(MSR)和均值替换率(MRR),以定量地衡量每个关系的难度值。

较低的 MSR 表示更难学习给定的关系,因为与该关系相连的实体可能有更多的语义层面。

较高的 MRR 表示关系可能有更多的替代关系,所以它更容易学习因为智能体可以直接选择替代关系来到达终点。

该模型中使用了三种方法来防止过拟合:L2 正则化、dropout、行为 dropout。但是,对于易于学习的关系(较高的MSR和MRR),我们希望施加更多的正规化以鼓励智能体找到更多不同的路径,而又不会过分适应即时的成功。另外,对于较难学习的关系(MSR和MRR较低),我们最好将重点放在寻找路径的成功率上,因此应减少正则化。

为简单起见,我们使用指数计算关系r的难度系数。它定义为 exp(MSR(r) + MRR(r)),并分别乘以三种正则化方法的基本速率。正则化方法的基本速率基于 KG,在同一 KG 中的所有关系之间共享。

3.4 整体训练算法

基于提出的模型,我们提出了一种新的训练算法,如算法 1 所示。

作者对算法的贡献之一是,当智能体选择无效路径时,模型不仅会对其进行惩罚,还会强制其选择有效关系以向前迈进。来自神经网络的概率在所有有效关系中均被归一化,这反过来又影响了强制行为的概率。

初始化之后,第6行根据网络的输出对动作进行采样。当智能体选择无效动作时,将执行第7到10行,而第9到10行则迫使智能体向前移动。当智能体选择有效动作时,将执行第12行。第19、22和25行使用奖励-1,Rtotal和Rshaping分别更新无效动作,成功事件中的有效动作和不成功事件中的有效动作的参数。

4 实验

作者使用关系预测和链接预测两个任务对该模型做实验,并比较了和 DeepPath 的表现差距。

5 结论与未来工作

在本文中,作者提出了 AttnPath,这是一种基于 DRL 的 KG 推理任务模型,该模型将 LSTM 和图注意力机制作为记忆组件,以减轻模型的预训练。

作者还发明了两个指标 MSR 和 MRR 来衡量关系的学习难度,并将其用于更好地微调训练超参数。

作者改进了训练过程,以防止智能体陷入毫无意义的状态。

定性实验和定量分析表明,作者的方法明显优于DeepPath和基于嵌入的方法,证明了其有效性。

在未来,作者有兴趣于使用多任务学习,使模型能同时学习多个查询关系。作者也感兴趣于研究如何使用 GAT、MSR 和 MRR 于其他 KG 相关的任务,例如 KG 的表示、关系聚类和 KBQA。

通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...相关推荐

  1. 基于图注意力神经网络的多智能体博弈抽象

    G2ANet <Multi-Agent Game Abstraction via Graph Attention Neural Network> 关键词:大规模,博弈抽象,2级(硬+软皆有 ...

  2. 论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

    论文笔记整理:陈名杨,浙江大学直博生. Introduction 知识图谱(KGs)在很多NLP的下游应用中起着越来越重要的作用.但是知识图谱常常是不完整的,所以解决知识图谱补全的任务也非常重要.主要 ...

  3. 基于深度强化学习的智能汽车决策模型

    1.基于深度强化学习的智能汽车决策模型 以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力,通过数据驱动智能体可以应对各种未经历过的复杂环境.强化学习是一种经典的智能系统设计方案, ...

  4. ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体

    两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 ...

  5. 基于深度强化学习的智能船舶航迹跟踪控制

    基于深度强化学习的智能船舶航迹跟踪控制 人工智能技术与咨询 昨天 本文来自<中国舰船研究> ,作者祝亢等 关注微信公众号:人工智能技术与咨询.了解更多咨询! 0.   引 言 目前,国内外 ...

  6. 商简智能学术成果|基于深度强化学习的联想电脑制造调度(Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning)

    获取更多资讯,赶快关注上面的公众号吧! 文章目录 摘要 背景介绍 传统方法无法解决现有挑战 解决方案 提升模型表达能力 针对复杂约束的掩码机制 快速模型训练 配置多目标调度优化 结论   本篇论文作为 ...

  7. 基于深度强化学习训练《街头霸王·二:冠军特别版》通关关底 BOSS -智能 AI 代理项目上手

    文章目录 SFighterAI项目简介 实现软件环境 项目文件结构 运行指南 环境配置 验证及调整gym环境: gym-retro 游戏文件夹 错误提示及解决 Could not initialize ...

  8. 基于深度强化学习的智能车间调度方法研究

    摘要: 工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路.智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一,要求以最大完工时间最小化分派多道工序和多台机器的生产调度.首先, ...

  9. 深度强化学习基础知识 思维导图

    学习了王树森老师的深度强化学习入门课件,将各个算法整理在如下思维导图中. 深度强化学习基础知识 思维导图

最新文章

  1. [002] The Perks of Being a Wallflower - 读后记
  2. 本地虚拟机的linux文件,连接虚拟机上传本地文件 打包Linux的文件 下载的本地
  3. 云HBase发布全文索引服务,轻松应对复杂查询
  4. Qtum量子链作客第四届拉美商业科技大会
  5. asp.net机器人注册原理
  6. android wifi 组播,在Android上显示实时UDP或RTP流(多播)
  7. OJ1087: 获取出生日期(多实例测试)(C语言)
  8. python计算速度_python中如何提高计算速度?
  9. 微软警告 Windows 10 1703 即将停止支持!
  10. DirectFB简介以及移植[一]【转】
  11. windows10商店应用离线安装方法
  12. 互联网日报 | 1月10日 星期日 | 小米之家千店同开;蔚来发布首款旗舰轿车ET7;LVMH完成收购Tiffany...
  13. EasyBoot如何使用?EasyBoot制作多系统启动盘教程
  14. 服务器有什么类型?应用功能是什么
  15. 未了(endless)([CCF] NOI Online 能力测试2 入门组第一题)
  16. Windows 7 重装系统
  17. android 常用机型尺寸_Android中图片大小与各种hdpi
  18. FlexRay总线协议快速入门、深度剖析与应用示例
  19. 交易系统解析(六)前台报盘应用设计要点
  20. 夏普液晶电视红灯闪,不开机解决方法(最后一般都会故障进厂维修)

热门文章

  1. javascript原生事件句柄、BOM、DOM对象属性方法总结
  2. 获取URL中 后面的参数值
  3. JavaScript判断页面当前浏览设备为移动端还是PC端,实现自动加载对应端页面
  4. SLAM: Orb_SLAM中的ORB特征
  5. Flask-Login Flask-Security 登录与权限控制
  6. 论“前置测试模型”-1 概念篇
  7. 使用AutoMapper 处理DTO数据对象的转换
  8. I.MX6 Surfaceflinger 机制
  9. FastClick使用之trigger触发click失效
  10. aquamacs 夜间模式禁止滚动条