【ACL2020】最新效果显著的关系抽取框架了解一下?
来自:AI自然语言处理与知识图谱
效果显著的关系抽取框架
导 语:
从非结构化文本中抽取三元组是构建大规模知识图谱的必备关键,然而现有的研究工作鲜有去解决三元组重叠的问题,针对此问题,本文从全新的视角提出一个新的关系抽取框架:CASREL,不同以往采用分类的视角解决问题,从实验结果来看,框架非常有效,加上 BERT 之后,更为惊人,在两份数据集上面,分别提升 17% 和 32%。
该论文目前在arxiv上面,已经被 ACL2020 接受。
文末附代码 Github Repo。
背景与思路
信息抽取是构建大规模知识图谱的必备关键,先来说一下图谱的三元组形式,在以往常常将三元组以 (head,relation, tail) 的形式表示,在这里以(subject, relation, object)的形式表示,即(S, R,O),为了方便描述,后文将以这种形式阐述。
信息抽取分为两大部分,一部分是命名实体识别,识别出文本中的实体,另外就是关系抽取,对识别出来的实体构建对应的关系,两者便是构建三元组的基本组成。在以往的研究工作中,早期两个任务以pipline的方式进行,先做命名实体识别,然后做关系抽取。但是pipline的流程可能造成实体的识别错误,也就造成关系构建的错误,所以后续的一些研究工作将两者采用联合学习的方式。
但是上述存在很少的研究工作解决三元组重叠的问题,本文以此为解决目标,提出新的模型框架,首先来看一下三元组重叠的问题具体指什么?看下图,列举了三种形式。
Normal: 代表没有重叠的部分。
EPO(EntityPairOverlap): 关系两端的实体都是一致的,例如 QT 既在电影 DU 中扮演角色,又是电影 DU 的执导。
SEO(SingleEntityOverlap): 关系两端只有单个实体共享,图中的例子,从小范围来说,JRB 出生在 Washington, 但是 Washington 是 USA 的首都,所以也可以说 JRB 出生在 USA。
以往工作的不足以及重叠三元组出现的挑战:
在实体对的组合之中,大多数实体对是没有关系链接的,这便存在很多的负例,也就造成了关系分类的不平衡。
重叠三元组的问题更是一个难点,因为其存在共享的实体,甚至两个实体存在多种关系,这便增加了难度,没有足够的训练数据,是难以学习或者根本无法学习这种关系的。
思想:采用全新的视角代替以往分类的视角,将关系建模为 S 到 O 的映射函数。提出一个全新的框架:CASREL。
框架详解
CASREL框架抽取三元组(subject, relation, object)主要包含两个步骤,三个部分。
两个步骤:
第一步要识别出句子中的 subject 。
第二部要根据识别出的 subject, 识别出所有有可能的 relation 以及对应的 object。
三个部分:
BERT-based encoder module: 可以替换为不同的编码框架,主要对句子中的词进行编码,论文最终以BERT为主,效果很强。
subject tagging module:目的是识别出句子中的 subject。
relation-specific object tagging module:根据 subject,寻找可能的 relation 和 object。
其中 a 是 Encoder, b 和 c 称为 Cascade Decoder。
框架图:
BERT Encoder
这部分的就是对句子编码,获取每个词的隐层表示,可以采用 BERT 的任意一层,另外这部分是可以替换的,例如用 LSTM 替换 BERT。
Subject Tagger
这部分的主要作用是对 BERT Encoder 获取到的词的隐层表示解码,构建两个二分类分类器预测 subject 的 start 和 end 索引位置,对每一个词计算其作为 start 和 end 的一个概率,并根据某个阈值,大于则标记为1,否则标记为0。公式如下:
如框架图中所示,Jackie 被标记为 start,R 既不是 start 也不是 end, Brown 被标记为 end,其他的类似。在这里采用了最近匹配的原则,即与 jackie 最近的一个 end 词是 Brown, 所以 Jackie R. Brown 被识别为一个subject。文中并未考虑前面位置的情况。
Relation-specific Object Taggers
这部分会同时识别出 subject 的 relation 和相关的 object。
解码的时候比 Subject Tagger 不仅仅考虑了 BERT 编码的隐层向量, 还考虑了识别出来的 subject 特征,即下图。vsub 代表 subject 特征向量,若存在多个词,将其取向量平均,hn 代表 BERT 编码向量。
对于识别出来的每一个 subject, 对应的每一种关系会解码出其 object 的 start 和 end 索引位置,与 Subject Tagger 类似,公式如下:
我们以图中的例子详细说明一下,图中的例子仅仅画出了第一个 subject 的过程,即 Jackie R. Brown,对于这个,在关系 Birth_place 中识别出了两个 object,即 Washington 和 United States Of America,而在其他的关系中未曾识别出相应的 object。当对 Washington 这个 subject 解码时,仅仅在 Capital_of 的关系中识别出 对应的 object: United States Of America。
以上我们便可以得到抽取到的三个三元组如下:
(Jackie R. Brown, Birth_place, Washington)
(Jackie R. Brown, Birth_place, United States Of America)
(Washington, Capital_of, United States Of America)
从以上抽取出来的三元组,确实解决了最开始提到的 SEO 和 EPO 的重叠问题。
实验效果
验证CASREL框架效果采用的是两个公开的数据集,NYT 和 WebNLG。
具体的实验效果如下,其中 CASREL 分别采用了 随机初始化参数的BERT编码端、 LSTM 编码端以及预训练 BERT 编码端,实验结果主要说明以下结论:
CASREL 框架确实有效,三种编码结构的效果都是要远高于其他的模型性能。
采用预训练 BERT 之后,CASREL 框架更是逆天。
结束语
本文从全新的角度考虑三元组抽取工作,效果着实惊人,令人惊叹。不知道这样的架构是否可以在业界应用,以及在中文上的效果如何?
论文代码:https://github.com/weizhepei/CasRel
参考资料
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
相关注明
上述图片均来自于上述参考资料。
添加个人微信,备注:昵称-学校(公司)-方向,即可获得
1. 快速学习深度学习五件套资料
2. 进入高手如云DL&NLP交流群
记得备注呦
【ACL2020】最新效果显著的关系抽取框架了解一下?相关推荐
- 开源中文关系抽取框架,来自浙大知识引擎实验室
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程 公众号:datayx DeepKE DeepKE 是基于 Pytorch 的深度学习中文关系抽取处理套件. 环境依赖 ...
- LSR:用于文档关系抽取的潜在图结构迭代优化推理方法
每天给你送来NLP技术干货! 来自:AI自然语言处理与知识图谱 大家好,我是大林,今天给大家分享一篇ACL2020文档关系抽取的文章,作者是Brauch. 论文题目: Reasoning with L ...
- 深度学习实体关系抽取研究综述笔记
鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述.软件学报,2019,30(6): 1793−1818. http://www.jos.org.cn/1000-982 ...
- 知识图谱从哪儿来?实体关系抽取的现状和未来
12月17日晚,2019年清华特奖获得者之一,清华大学自然语言处理实验室大四本科生高天宇,在智源论坛Live第1期,以<实体关系抽取的现状和未来>为主题,与150位观众进行了在线交流.本文 ...
- 【信息抽取】如何使用循环神经网络进行关系抽取
事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...
- 技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来
本文作者为:韩旭.高天宇.刘知远.转载自刘知远老师的知乎专栏,文章链接:https://zhuanlan.zhihu.com/p/91762831 最近几年深度学习引发的人工智能浪潮席卷全球,在互联网 ...
- 【论文】Awesome Relation Extraction Paper(关系抽取)(PART V)
写在前面 之前介绍的关系抽取系列文章主要是属于pipeline形式的,即第一步用实体识别将关系对抽取出来,第二步才是对关系对的分类,这样的做法会导致误差的传递.另外有一种解决方案是端到端的joint ...
- 《面向对话的融入交互信息的实体关系抽取》--中文信息学报
实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务.在新闻报道,维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面对对话文本的相关研究的还处于起始阶段.相 ...
- 知识图谱从哪里来:实体关系抽取的现状与未来
点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支 ...
- 【论文阅读笔记】面向医学文本的实体关系抽取研究综述
面向医学文本的实体关系抽取研究综述 写在前面 深度学习方法 监督学习 基于简单的CNN模型 基于CNN模型的改进 基于RNN模型 基于注意力机制的模型 远程监督的多实例学习 分段卷积神经网络模型及改进 ...
最新文章
- 如何打开python的交互窗口-使用Python显示图形交互窗口
- WEB中的敏感文件泄露
- linux 安装程序丢失链接动态库,Linux安装软件过程中提示缺少动态链接库.so的解决方法...
- [JavaWeb-MySQL]数据库的备份和还原
- 网页特效:用CSS3制作3D图片立方体旋转特效
- C++的头文件和实现文件分别写什么
- Linux逻辑运算优先级,linux中的逻辑运算和正则表达式
- UE3 GPU性能和分析
- 《Reids 设计与实现》第三章 跳跃表
- Enjoy模板里使用layui模板引擎laytpl
- 基于汇编的 C/C++ 协程 - 背景知识
- 如何评价《Java 并发编程艺术》这本书?
- Python + ElasticSearch:有了这个超级武器,你也可以报名参加诗词大会了!
- 8uftp怎么上传文件,8uftp怎么上传文件
- RSA加密工具类库C#,可加密二进制数组(用来加密文件)
- 长沙与华为联合“打样”,湖南智能网联汽车加速跑出新局面
- 整理一下第一次参加华为大数据挑战赛自己的一些收获吧(正式赛篇阶段一)
- 为什么说买腾讯云服务器通过代理商购买更划算
- 教师节,给老师们写一个随机点名的网页
- turtle库使用——漫天繁星+万花筒绘制