论文笔记整理:窦春柳,天津大学硕士。


链接:https://arxiv.org/pdf/1909.03227.pdf

动机

首先作者提出了问题,传统的关系抽取是不能很好的解决三元组重叠,如下图。从图中可以发现,传统的关系抽取针对Normal 类型的数据还是可以的,但是针对EPO和SEO的情况就不理想。尽管像这样的问题已经有人做了很多研究,但是仍然存在很多的问题,他们都把每个实体对的关系看作离散的,这样导致会导致模型学习很困难,原因有两点:第一点,数据分布不均衡,第二点, 针对重叠的标签,如果在训练数据很少的情况下,分类器很难去正确的分类。

亮点

本文采用全新的视角代替以往分类的视角,将关系建模为 S 到 O 的映射函数。提出一个全新的框架:CASREL。

概念及模型

CASREL框架抽取三元组(subject, relation, object)主要包含两个步骤,三个部分。

两个步骤

1、要识别出句子中的 subject 。

2、要根据识别出的 subject, 识别出所有有可能的 relation 以及对应的 object。

三个部分

1、BERT-based encoder module: 可以替换为不同的编码框架,主要对句子中的词进行编码,论文最终以BERT为主,效果很强。

2、subject tagging module:目的是识别出句子中的 subject。

3、relation-specific object tagging module:根据 subject,寻找可能的 relation 和 object。

其中 a 是 Encoder, b 和 c 称为 Cascade Decoder。

1)BERT Encoder

对句子编码,获取每个词的隐层表示,可以采用 BERT 的任意一层,另外这部分是可以替换的,例如用LSTM替换BERT。

2)Subject Tagger

对 BERT Encoder 获取到的词的隐层表示解码,构建两个二分类分类器预测 subject 的 start 和 end 索引位置,对每一个词计算其作为 start 和 end 的一个概率,并根据某个阈值,大于则标记为1,否则标记为0。公式如下:

如框架图中所示,Jackie 被标记为 start,R 既不是 start 也不是 end, Brown 被标记为 end,其他的类似。在这里采用了最近匹配的原则,即与 jackie 最近的一个 end 词是 Brown, 所以 Jackie R. Brown 被识别为一个subject。文中并未考虑前面位置的情况。

3)Relation-specific Object Taggers

这部分会同时识别出subject的relation和相关的object。

解码的时候比 Subject Tagger 不仅仅考虑了 BERT 编码的隐层向量, 还考虑了识别出来的 subject 特征,即下图。vsub 代表 subject 特征向量,若存在多个词,将其取向量平均,hn 代表 BERT 编码向量。

对于识别出来的每一个 subject, 对应的每一种关系会解码出其 object 的 start 和 end 索引位置,与 Subject Tagger 类似,公式如下:

理论分析

实验

验证CASREL框架效果采用的是两个公开的数据集,NYT 和 WebNLG。具体的实验效果如下。

其中 CASREL 分别采用了 随机初始化参数的BERT编码端、 LSTM 编码端以及预训练 BERT 编码端,实验结果主要说明以下结论:

1、CASREL 框架确实有效,三种编码结构的效果都是要远高于其他的模型性能。

2、采用预训练 BERT 之后,CASREL 框架更是逆天。

总结

本文为了解决三元组重叠的情况,提出了新的关系抽取的方法,cascade binary taging framework(CasRel),和传统的关系抽取不同,传统的关系抽取是通过两个实体来抽取(离散的)关系标签,但在这里通过CasRel框架来抽取实体及实体间的关系,最终效果得到了很大的提升。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架相关推荐

  1. 论文浅尝 - ACL2020 | 用于关系三元组抽取的级联二进制标记框架

    论文笔记整理:王中昊,天津大学. 来源:ACL2020 链接:https://arxiv.org/pdf/1909.03227.pdf 摘要 从非结构化文本中提取关系三元组是构建大规模知识图的关键.然 ...

  2. 论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...

    笔记整理 | 谭亦鸣,东南大学博士生 来源:COLING 2020 链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf 本文发现, ...

  3. 论文浅尝 - ACL2020 | 用于链接预测的开放知识图谱嵌入

    本文转载自公众号:PaperWeekly. 作者:舒意恒,南京大学硕士,研究方向:知识图谱. 当前大量的知识图谱都是通过文本直接构建的.由于当前的知识图谱构建方法的局限性,其中难免包含对同一实体或关系 ...

  4. 论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间

    笔记整理 | 王琰,东南大学 来源:ACL 2020 链接:https://arxiv.org/pdf/2005.02472.pdf 概述 本论文引入一项新任务:多媒体事件提取(M²E²),该任务旨在 ...

  5. 论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA

    论文笔记整理:吴畏,东南大学硕士研究生. 来源: ACL 2020 论文地址: https://www.aclweb.org/anthology/2020.acl-main.412.pdf 开源代码: ...

  6. 论文浅尝 | TEQUILA: 一种面向时间信息的知识问答方法

    来源:CIKM'18 链接:http://delivery.acm.org/10.1145/3270000/3269247/p1807-jia.pdf?ip=223.3.116.39&id=3 ...

  7. 论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

    作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱.自然语言处理 接收会议 | AAAI2021 论文链接 | https://arxiv.org/pdf/2009.06207.pdf 摘要 在 ...

  8. 论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

    笔记整理 | 谭亦鸣,东南大学博士 来源:  ACL 2020 链接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf 资源:http ...

  9. 论文浅尝 - ACL2020 | 用于回答知识库中的多跳复杂问题的查询图生成方法

    论文笔记整理:谭亦鸣,东南大学博士. 来源:ACL 2020 链接: https://www.aclweb.org/anthology/2020.acl-main.91.pdf 1.介绍 在以往的工作 ...

最新文章

  1. element-ui 表格table,动态显示每一列的,重置全选
  2. 范围查询 BETWEEN AND
  3. leetcode 1184 python
  4. 关于Oracle中的错误 「SQL*Loader-522: lfiopn failed for file (xxx.log)」
  5. mooc中习题--计算天数
  6. 云上资源编排1.0到2.0的设计开发思考(含招聘)
  7. AD9 设置网络标号作用域 (NET 全局)
  8. 【科研人必备】各大英文期刊投稿必备搜索/文章相关推荐投稿搜索方法
  9. 时间或许从未流逝,而人在氧化新陈代谢与日升日落中,以自己为坐标,定义了时间!...
  10. php接入北斗定位,手机如何连接北斗卫星?
  11. 基于stm32的车辆减速灯项目——MPU6050或ADXL345
  12. 酷派春雷com.yulong.android,酷派春雷hd刷机详细教程介绍
  13. 验证码的java实现
  14. 使用System.setOut()
  15. 翼龙老域名扫描软件 V2.4版本
  16. Revit完整案例教程
  17. Win10 任务管理器的 N 多技巧:老鸟也未必知道
  18. 设计模式—单例模式(饿汉式、懒汉式)
  19. AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——12:00-12:30杨红霞《 人工智能从感知走向认知:认知推荐》
  20. 5G/NR学习笔记:3GPP 38.211- Carrier Bandwith Part, BWP-载波带宽部分

热门文章

  1. C#托管代码与C++非托管代码互相调用一(C#调用C++代码.net 代码安全)
  2. 转:程序员每天该做的事
  3. UDT源代码下载链接
  4. 努力过头了,其实并不好
  5. [教程]win10 ,ubuntu双系统安装避坑指南
  6. Linux 块设备,Block Layer层架构演变
  7. NILMTK——经典数据集REDD介绍和使用
  8. android 屏幕关闭 eofexception,android EOFException异常解决办法 (SharedPreferences保存对象)...
  9. python语法基础知识案例_Python 语法速览与实战清单
  10. python 嵌套型partials(nested partials)的使用