笔记整理 | 谭亦鸣,东南大学博士


来源:  ACL 2020

链接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf

资源:https://github.com/bernhard2202/intkb.

概述

知识库作为许多下游NLP任务的资源基础,存在的一个普遍缺陷是它的不完整性。目前最好的知识库补全框架则缺乏足够的准确性,无法在脱离人工监督的情况下完全自动化的完成知识补全。因此,作为弥补方案,本文提出了IntKB,一种基于问答pipeline的交互式图谱补全框架。该框架的设计面向“人在回路”范式的特性需求:i. 该系统生成的事实与文本片段一致,可由人类直接验证。ii. 该系统设计为可在知识库补全过程中不断学习,因此能够使zero-或者few-shot的初始状态随着时间推移而显著提升性能。iii. 当且仅当存在足够信息进行正确预测的情况下,才会出发与人的交互。因此,作者采用负例和无答案的fold-option来训练系统。该框架在实验中取得较好的性能:对于初始状态下的未见关系,它实现了29.7%的Hits@1,并且在此基础上,这个结果逐渐提高到46.2%。

方法

图1描述了本文所提方法的大致框架,主要包含三个过程:

1.Sentence selection:句子筛选模块的输入是一个不完整的三元组形如[h, r, _](同指查询),针对这个输入,返回一个经过排序的候选句子集(即可能涵盖尾实体(答案)的文本)。在这里,用于检索的文档被约束为与头实体h相关的文档子集,接着作者为每个句子建立基于tf-idf的向量表示(这里只考虑上述文档子集的idf而不是整个文档)。对于查询向量,论文使用关系类型的semantic names,并将每个关系类型转换为对应的tf-idf向量,而后计算每个句子和查询之间的相似性得分。该结果用于步骤2中的关系抽取。

2.Relation extraction: 关系抽取模型的输入是上一步中排序Top-n的句子,以及原始查询[h, r, _],每条句子都被转换成一条查询,而后输入BERT-QA模型,用于返回作为候选答案的文本区间。之后,作者将关系抽取视作阅读理解的一个特例(即“问”未知的尾实体),不同于过去需要构建问题模板的方式,这里通过关系类型的semantic names构建多个噪声关键词查询。因此,本文的知识库补全工作是在数据缺少的情况下进行的,且只使用知识库中的信息无需额外的人工监督。

3.Answer re-ranking:从BERT-QA获取到若干候选答案之后,最后一步就是对它们进行重排序。排序前,作者首先汇总所有具有匹配文本的候选答案,例如预测中多次出现了某个关键词,则合并这些候选答案为一个。而后使用前两步得到的候选答案的特征信息做排序(使用Kratzwald et al., 2019提出的方法),最终,得到对于[h, r, _]的预测候选。

面向知识库补全的Continuous Learning

1.冷启动

作者建议使用以下三步对框架进行初始化,首先是事实对齐,使用远程监督的方式将初始知识库中的事实与文本语料中的句子进行对齐,其次是对数据集中不存在的事实生成负例训练样本,再者,知识转移,通过训练将负样本和对齐的事实反馈到问答pipeline中。

2.基于用户反馈的持续提升

由于对训练中未见关系类型的预测是很困难的,因此这里作者通过交互机制,在标注过程中动态生成关于zero-shot关系的训练数据,所有用户正反馈的事实都会立刻添加到知识库中。

实验

本文针对其框架机制,构建了一个数据集,包括一个不完整知识库,一个文本语料(都是来自Wikidata的子集),知识库中的关系被分为已知关系(训练可见),和未知关系(训练中看不见,zero-shot)等两类。作者首先评估了模型在可见知识子集上的性能,而后评估了zero-shot子集上的性能,论文构建了两套baseline,分别为BERT-Sentence 与Na¨ıve QA pipeline,实验结果如以下两张表所示


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架相关推荐

  1. 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

    论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...

  2. 论文浅尝 | 可建模语义分层的知识图谱补全方法

    本文转载自公众号:PaperWeekly. 论文作者:蔡健宇,中国科学技术大学,研究方向:知识图谱 近些年,知识图谱(Knowledge Graph)在自然语言处理.问答系统.推荐系统等诸多领域取得了 ...

  3. 论文浅尝 | 基于深度序列模型的知识图谱补全

    本文转载自公众号:DI数据智能. Learning to Complete Knowledge Graphs with Deep Sequential Models 作者:郭凌冰.张清恒.胡伟.孙泽群 ...

  4. 论文浅尝 | Data Intelligence 已出版的知识图谱主题论文

    本文转载自公众号:DI数据智能.   知识图谱被称为人工智能的基石,它的前身是语义网,由谷歌在2012年率先提出,用于改善自身的搜索业务.Data Intelligence执行主编.东南大学计算机科学 ...

  5. 论文浅尝 | 区分概念和实例的知识图谱嵌入方法

    链接:https://arxiv.org/pdf/1811.04588.pdf 知识图谱的表示学习最近几年被广泛研究,表示学习的结果对知识图谱补全和信息抽取都有很大帮助.本文提出了一种新的区分概念和实 ...

  6. 论文浅尝 - CIKM2020 | 用于推荐系统的多模态知识图谱

    论文笔记整理:王琰,东南大学硕士. 来源:CIKM 2020 链接:https://doi.org/10.1145/3340531.3411947 研究背景与任务描述 为了解决推荐系统中的数据稀疏和冷 ...

  7. 论文浅尝 | 利用指针生成网络的知识图谱自然语言生成

    论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答. 来源:Neurocomputing 382: 174-187 (2020) 链接:https://www.sciencedirect.co ...

  8. 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

    论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...

  9. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

最新文章

  1. QIIME 2用户文档. 9数据导入Importing data(2019.7)
  2. 很近没读书了,读书笔记之大道至简
  3. 【ASP.NET MVC 学习笔记】- 16 Model Binding(模型绑定)
  4. CSS学习15之定位
  5. 配置WCF同时支持WSDL和REST,swaggerwcf生成文档
  6. java中String、StringBuffer equals使用注意
  7. 无光驱如何修复W7计算机,Win7电脑没有光驱怎么装系统?
  8. 来,我们谈谈怎么学好计算机科学与技术
  9. Bootstrap列表组支持的组件
  10. Jupyter_notebook using(慢慢积累)
  11. Mac 快速打开终端快捷键
  12. 电脑联网打不开网页只能用qq和微信
  13. 数据结构-二叉树的定义、创建和周游(前序、中序、后序和层序)
  14. Vue源码剖析——render、patch、updata、vnode
  15. JavaScript对象与内置对象——对象(一)
  16. CSS学习笔记7PS切图与仿学成在线例子
  17. 华为路由器接口如何区分_华为路由的线路输出的两种不同方法简介
  18. 百度知道怎样引流?如何把有共同需求的人精准地引导给我们?
  19. 一道有意思的数学题(11223344)
  20. 走走北京中轴(三):前门小吃的功课

热门文章

  1. 程序员因拒绝带电脑回家工作被开除!获赔19.4万元
  2. centos 安装idea 非可视化_太厉害了!目前 Redis 可视化工具最全的横向评测
  3. SKLEARN模型选择
  4. php 循环队列,队列和循环队列-php数组
  5. 要多大内存才满足_佛龛的尺寸要多大?
  6. 【Pytorch神经网络实战案例】18 最大化深度互信信息模型DIM实现搜索最相关与最不相关的图片
  7. 视频操作_01视频读写:视频读写+读取视频+保存视频
  8. 【Pytorch神经网络基础理论篇】 05 矩阵计算
  9. python做硬件自动化测试-用python做自动化测试--Python实现远程性能监控
  10. Uniapp学习笔记(数据展示、数据循环、条件编译、计算属性、组件的使用、组件插槽、生命周期)