NAACL 2021 | QA-GNN:基于语言模型和知识图谱的问答推理
©PaperWeekly 原创 · 作者|刘兴贤
学校|北京邮电大学硕士生
研究方向|自然语言处理
论文标题:
QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering
论文地址:
https://arxiv.org/abs/2104.06378
代码repo:
https://github.com/michiyasunaga/qagnn
该论文被收录于 NAACL 2021,作者是来自 Stanford 的 Michihiro Yasunaga、Hongyu Ren、Antoine Bosselut、Percy Liang and Jure Leskovec 。
基于知识图谱的问答(KBQA),是自然语言处理中的一个热门领域,最近的工作集中于知识图谱上的多跳推理以及语言模型与知识图谱的融合。目前的方法需要解决两个问题:
1. 在给定上下文的条件下,如何从规模巨大的知识图谱中检索出相关的知识;
2. 如何进行问答上下文与知识图谱的联合推理。
本文提出了一个新的模型:QA-GNN,通过两个关键性创新来尝试解决上述问题:
1. 相关性评分
在给定问答上下文的条件下,使用语言模型计算相关性评分,估计知识图谱中的实体对于给定上下文的重要性。
2. 联合推理
将问答上下文与筛选出的知识图谱的子图构建一张联合图,使用基于 GNN 的消息传递来更新彼此的表示。
该文章在 CommonsenseQA 以及 OpenBookQA 数据集上,进行了实验,实验表明,QA-GNN 方法比 fine-tune LM 与现有的 LM+KG 方法分别提高了 5.7% 和 3.7% ,以及处理结构化推理(如否定问题)的能力,比目前的fine-tune LM有 4.6% 的提升。
论文动机
目前现有的方法,对于 QA 上下文使用 LM 处理,对于 KG 使用 GNN 进行处理,并且并不相互更新彼此的表示,也不做语义的对齐表示。因此 QA 上下文与 KG 的分离表示可能会限制模型执行结构化推理的能力(比如处理否定问题)。因此本篇工作主要在于 QA 上下文与 KG 的融合表示。
相关性评分
对中心实体附近 few-hop 的节点截为子图,对每一个 entity 与 QA 上下文做 concat,然后使用预训练语言模型(本文使用的是 RoBERTa),计算它们的相似程度。
对于每个节点
,QA 的上下文 ,节点 的相关性评分为:
联合推理
联合推理模块使用预训练语言模型(本文中使用 RoBERTa)将 QA 上下文编码,将其视为一个额外节点,添加到相关的子图中去。这样生成的图被称为 working graph。
对于 working graph 中的每个节点,使用相关性评分增强它们的特征。最后使用一个 attention-base GNN 模块做推理。
对于 working graph 中的每个节点,使用下式更新节点的表示,其中
表示 t 的所有邻居, 表示 对 的 attention weight, 表示来自邻居 s 向 t 传递的消息。
其中在邻居节点之间传递的消息是什么呢?
首先我们定义节点的 type embedding:
到 的 relation embedding:
其中
是一个线性变换, 是一个两层的 MLP。
最后我们定义从
到 传递的消息:
其中
也是一个线性变换。
节点类型、关系和 score-aware attention
将相关性评分
过一个 MLP 得到其 embedding 。
然后我们通过下式得到 query 和 key vector:
最后我们注意到式 2 中还有一个 attention weight,为:
其中
。
最终,在得到了 GNN 中节点的表示后,我们计算条件概率:
选择概率最高的作为问题的答案。
在测试集的候选答案上,使用 cross entropy loss 作为损失函数。
实验结果
▲ CommonsenseQA上的测试结果
▲ OpenBookQA上的测试结果
▲ 消融实验
总结
本文提出了 QA-GNN,利用预训练语言模型与 GNN 融合 QA 上下文与 KG。
使用相关性评分,从知识图谱中检索实体相关子图,并衡量每个节点对于 QA 上下文的重要程度,这保证了我们在后续进行融合时,能够注意到这样的相关性信息。
接着通过将 QA 上下文视作一个节点添加进 KG,通过工作图连接两个信息源,并通过 GNN 消息传递联合更新它们的表示。
本文是 GNN 在融合 QA 上下文与 KG 的一个尝试,在问答任务上相比现有的预训练语言模型、以及预训练 +KG 模型,都有不小的提升。同时,使用 attention-base GNN,能够可视化知识图谱中节点之间的注意力关系,有助于提高 QA 可解释性和结构化推理的能力。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
NAACL 2021 | QA-GNN:基于语言模型和知识图谱的问答推理相关推荐
- 论文浅尝 | 基于时序知识图谱的问答
笔记整理:姚云志,浙江大学在读博士,研究方向为自然语言处理. 链接:https://arxiv.org/pdf/2106.01515.pdf 时序知识图谱是一种多关系的知识图谱,相较于常规的知识图谱, ...
- 图谱实战 | 百度基于异构互联知识图谱的多模内容创作技术
分享嘉宾:卞东海 百度 高级研发工程师 编辑整理:蒋郭鑫 河海大学 出品平台:DataFunTalk 导读:由于大数据时代的发展,知识呈指数级增长,而知识图谱技术又在近年来逐步火热,因此诞生了利用知识 ...
- 基于向量空间的知识图谱查询及结果解释
2019独角兽企业重金招聘Python工程师标准>>> 知识图谱是一个宏大的数据模型,可以构建庞大的"知识"网络,包含世间万物构成的"实体"以 ...
- 论文浅尝 | BoxE:一种基于Box的知识图谱表示学习模型
笔记整理 | 耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 论文链接: https://arxiv.org/pdf/2007.06267.pdf 本文是发表在NeurIPS 2020上 ...
- 应用实践 | 南方科技大学研发基于新型冠状病毒知识图谱模式挖掘系统
本文转载自公众号:南方科技大学计算机科学与工程系. 随着新型冠状病毒疫情的不断发展,有关疫情的各类信息也在不断更新,如何利用知识图谱从大量新型冠状病毒肺炎信息中高效挖掘相关频繁模式(如病毒的宿主.传播 ...
- 基于位置的知识图谱链接预测
基于位置的知识图谱链接预测 人工智能技术与咨询 本文来自<中文信息学报>,作者张宁豫等 摘 要: 链接预测是知识图谱的补全和分析的基础.由于位置相关的实体和关系本身拥有丰富的位置特征,该文 ...
- 虚拟专题:知识图谱 | 基于网络防御知识图谱的0day攻击路径预测方法
来源:网络与信息安全学报 基于网络防御知识图谱的0day攻击路径预测方法 孙澄, 胡浩, 杨英杰, 张红旗 信息工程大学 摘要:针对 0day 漏洞未知性造成的攻击检测难问题,提出了一种基于知识图谱的 ...
- 中医与人工智能-基于Protégé构建知识图谱
文章目录 中医与人工智能-基于Protégé构建知识图谱 本文内容 中医数据获取 中医数据处理 Protégé介绍与基本使用 基于Protégé构建知识图谱 通过protégé创建类的层次关系 通过p ...
- 华为云苏嘉:如何整合预训练模型和知识图谱做医疗推理?
本文约4100字,建议阅读8分钟 本文将讨论如何为AI+医疗提供一种行之有效的解决方案. [ 导读 ] 随着人工智能技术特别是深度学习的普及,医疗行业也迎来一波革命的热潮,本文将讨论如何利用AI技术将 ...
最新文章
- 使用moy快速开发后台管理系统(二)
- SAP空格无法带出历史记录的解决办法
- 图文详解什么是OAuth2
- html中使用js、jQuery展示页面小结
- 后端处理方式:特殊格式时间转换(2020-11-27T02:58:41.000000Z)
- IDEA使用lombok时warn:Generating equals/hashCode implementation but without a call to superclass
- 20+个很棒的Android开源项目
- 软件测试周刊(第46期):走好选择的路,别选择好走的路,你才能拥有真正的自己。
- python爬虫贴吧_Python爬虫——抓取贴吧帖子
- 3dmax坐标轴全解
- 理解Tensorflow的shape
- 如何从瘫痪windows系统里面找到原来的IP地址设置
- 2022年线上求职!我建了一个AI算法岗求职群
- Google Earth Engine ——基于ENVISAT的中分辨率成像光谱仪全球土地覆盖300米分辨率数据集
- SEO网站优化真的比其他网络推广方式好吗,优势在哪里?
- 转载:挺住,意味着一切
- 比较两个Integer的值是否相等
- 一些我推荐的和想上的网络课程(Coursera, edX, Udacity,MIT OCW)
- h5中设置div中的内容水平并垂直居中
- json格式的数据转化为字符串
热门文章
- matlab驱动器有什么用,mongo-matlab-driver如何使用
- vue引入外部文件_vue文件中引入外部js
- k8s部署etcd数据库集群
- 华为上机:求2的N次幂的值
- 壊小子的学习【日常阅读篇】(四)与阅读有关的那些事儿
- java文本库,自定义文本库
- python编程单片机_Micro Python:用Python语言控制单片机
- c语言铁道,C语言程序设计(方少卿) 铁道C第8章(修订版).pdf
- 有参组装新转录本cufflinks_转录本组装软件StringTie的使用说明
- linux下mongdb绑定ip,Linux下MongoDB安装及副本集配置 | 聂扬帆博客