论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。


来源:NLPCC2019

链接:http://tcci.ccf.org.cn/conference/2019/papers/183.pdf

本文提出了一种利用问题生成提升知识图谱问答模型性能的方法(一个框架),动机主要有两个,其一是问答模型训练基于大量有标注问答数据集(人工成本高,且规模有限),其二是当问答模型面对训练过程中没见过的谓词(predicate)时,性能将会受到严重影响。因此作者提出基于现有知识图谱和文本语料,联合问答(QA)和问题生成(QG),将问题生成的结果用于问答模型的微调(fine-tune)中。

方法

1.    联合策略

作者提出使用对偶学习(dual-learning)联合QA和QG模型,训练的目标符合以下约束,其中 θqg 表示训练得到的 QG 模型,θqa 表示 QA 模型,QG 模型对于给定答案 a 生成的问题 q 需要对应 QA 模型对于问题 q 给出的答案 a:

即对于给定的问答对 <q, a>,QA 和 QG 模型均需要最小化他们的初始损失函数,规则化后如下:

作者给出了基于对偶学习的fine tuning过程如下图,初始训练数据集被分别用于QA和QG模型,而后QG模型将文本语料和其内容对应知识库的三元组(triple)作为输入生成<q, a>对,用于QA模型的fine tune:

2.    问答模型

为了实验方便,本文的简化问答模型为一个关系分类模型(relation classification model),作者表示在现有高质量 Entity Linking的 基础上,实际影响问答性能的主要因素依赖于关系/谓词的识别精度。

作者构建了一个简单的RNN关系抽取模型,为了更好的支持模型对未识别谓词的处理能力,关系名被分解为词序列,因此关系抽取实质上是一种序列匹配+排序的过程。

问题的表示也使用了相同的RNN完成,且为得到更 general 的表示形式,问题中的实体均用<e>标记替换,得到类似于“where is <e> from”这样的形式,同时对于<e>的类型添加了约束,以避免模型训练中可能存在的样本冲突。

3.    问题生成模型

作者基于 Seq2Seq 翻译模型(基于 GRU)设计并构建了本文的 QG 过程,该模型包含图谱和文本两个编码器:

图谱编码将给定的事实三元组中的头实体,谓词,尾实体分别进行编码,而后融合三者的编码结果,作为解码输入;

另一方面,对应事实三元组的文本信息也从Wiki中抽取获得,利用文本编码器编码,也作为解码过程的输入,从而实现基于知识库的自然语言问题生成。

实验

数据集

       本文实验使用的数据集包含以下两个:

SimpleQuestion:一个包含超过 10 万标注数据的问题集,每个问题由一个实体和一个关系组成,这里作者使用到了它的子集 FB2M,包含 2M 的实体。

WebQSP:一个中等规模的知识图谱问答数据集,包含单三元组和多三元组问题,作者使用 S-MART 实现实体链接。

实验结果

为了验证模型对未知谓词的处理能力,作者分别取5%~100%训练集对模型进行评估,结果如表1所示,指标反映的都是关系检测的准确性。

问题生成的结果如下表所示:

该评估包含BLEU-4自动评价和人工评价。

问答实验的结果如下:


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 利用问题生成提升知识图谱问答相关推荐

  1. 论文浅尝 | 利用指针生成网络的知识图谱自然语言生成

    论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答. 来源:Neurocomputing 382: 174-187 (2020) 链接:https://www.sciencedirect.co ...

  2. 论文浅尝 | 利用开放域触发器知识改进事件检测

    笔记整理 | 申时荣,东南大学博士 来源:ACL 2020 源码:https://github.com/shuaiwa16/ekd.git 摘要 事件检测(ED)是文本自动结构化处理的一项基本任务.由 ...

  3. 论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

    笔记整理:张清恒,南京大学计算机科学与技术系,硕士研究生. 论文链接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_Enti ...

  4. 论文浅尝 | 最新10篇《知识图谱》论文推荐(ICML, CVPR, ACL, KDD, IJCAI 2019)

    本文转载自公众号:专知. [导读]知识图谱一直是研究热点,研究者近年来广泛关注知识图谱嵌入(Knowledge Graph Embedding,简称KGE)方法,在保留语义的同时,将知识图谱中的实体和 ...

  5. 论文浅尝 | 六篇2020年知识图谱预训练论文综述

    转载公众号 | AI机器学习与知识图谱 本文介绍六篇有关知识图谱预训练的优秀论文,大致上可分为两类,生成学习模型和对比学习模型.其中GPT-GNN模型是生成学习模型,模型灵感来源于自然语言处理中的GP ...

  6. 论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强

    来源:IJCAI2019 论文链接: https://www.ijcai.org/proceedings/2019/0725.pdf 概述 知识图谱嵌入是从多关系数据中提取数据的工具,最近的嵌入模型对 ...

  7. 论文浅尝 | 基于属性嵌入的知识图谱实体对齐

    论文笔记整理:王中昊,天津大学硕士,方向:自然语言处理. 来源:AAAI2019 论文链接: https://doi.org/10.1609/aaai.v33i01.3301297 概述 知识图谱之间 ...

  8. 论文浅尝 | 探索用于归纳型知识图谱补全的关系语义

    笔记整理:徐雅静,浙江大学在读硕士,研究方向为知识图谱的表示学习,零样本学习. KGC指的是在不完整的KG中推理出缺失的实体.以前的多数工作仅仅考虑到直推式场景(实体都存在KG中),不能有效地解决归纳 ...

  9. 论文浅尝|简单高效的知识图谱表示学习负样本采样方法

    笔记整理 | 陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习 Introduction 研究知识图谱表示学习(KnowledgeGraph Embedding)可以解决当前很多应用的基本问 ...

最新文章

  1. java 删除list元素_JAVA中循环删除list中元素的方法总结
  2. 您没有足够的全新为该计算机所有用户安装,很抱歉,无法安装Office(64位),因为您的计算机上已经安装了这些32位Office程序解决办法...
  3. 初识BGP外部网关协议(一)
  4. 如何在 C# 中使用 Attribute
  5. 【Python学习】 - TensorFlow.keras 不显示epochs进度条的方法
  6. java lobo使用_[持续更新]Cobra:Java HTML parser用法详解
  7. Maven 单元测试报错:错误: 找不到或无法加载主类 @{failsafeArgLine}
  8. 获取北京时间授时api stm32 esp8266获取北京时间、年月日、星期api GMT格林威时间转换北京时间
  9. Pandas学习笔记- DataFrame
  10. java实例化对象数组_java对象实例化
  11. python绘制折线图显示点数据_Python_散点图与折线图绘制
  12. 商业银行会计学(一) -- 基本核算方法
  13. 提高Java反射速度的方法以及对setAccessable的误解
  14. 电信2班——第一次作业助教总结
  15. html 表格自动编号,excel表格批量自动编号
  16. 全球及中国聚氨酯热固性弹性体(TSU)行业研究及十四五规划分析报告
  17. 哈尔滨工业大学计算机系统大作业
  18. 大虾说工具 -- 横展开
  19. MATLAB矩阵复制及扩充
  20. Python错误集锦:pandas读取excel提示ImportError: Missing optional dependency ‘xlrd’.

热门文章

  1. 嵌入式软件开发注意事项一
  2. find与grep的区别
  3. 想一个颠覆性技术方向建议,你能想到什么?
  4. 我是如何使用wireshark软件的
  5. 自己动手实现一个malloc内存分配器 | 30图
  6. java实现itchat_GitHub - Xiazki/itchat4j: wechatbot 的java实现,简单搭建了基本框架和实现了扫码登陆,具体网页微信api请参考...
  7. 地壳中元素含量排名记忆口诀_在地球46亿年的历史中,氮气始终是含量最高的气体,为什么?...
  8. linux hosts文件如何修改_3 种方法教你在 Linux 中修改打开文件数量限制
  9. qq浏览器主页_安卓浏览器哪家强?这些小众好用的手机浏览器你知道吗
  10. 四、PHP基础——会话技术Cookie 和 Session