来自:AI自然语言处理与知识图谱

效果显著的关系抽取框架

导    语:

从非结构化文本中抽取三元组是构建大规模知识图谱的必备关键,然而现有的研究工作鲜有去解决三元组重叠的问题,针对此问题,本文从全新的视角提出一个新的关系抽取框架:CASREL,不同以往采用分类的视角解决问题,从实验结果来看,框架非常有效,加上 BERT 之后,更为惊人,在两份数据集上面,分别提升 17% 和 32%。

该论文目前在arxiv上面,已经被 ACL2020 接受

    文末附代码 Github Repo。

背景与思路

信息抽取是构建大规模知识图谱的必备关键,先来说一下图谱的三元组形式,在以往常常将三元组以 (head,relation, tail) 的形式表示,在这里以(subject, relation, object)的形式表示,即(S, R,O),为了方便描述,后文将以这种形式阐述。

信息抽取分为两大部分,一部分是命名实体识别,识别出文本中的实体,另外就是关系抽取,对识别出来的实体构建对应的关系,两者便是构建三元组的基本组成。在以往的研究工作中,早期两个任务以pipline的方式进行,先做命名实体识别,然后做关系抽取。但是pipline的流程可能造成实体的识别错误,也就造成关系构建的错误,所以后续的一些研究工作将两者采用联合学习的方式。

但是上述存在很少的研究工作解决三元组重叠的问题,本文以此为解决目标,提出新的模型框架,首先来看一下三元组重叠的问题具体指什么?看下图,列举了三种形式。

  1. Normal: 代表没有重叠的部分。

  2. EPO(EntityPairOverlap): 关系两端的实体都是一致的,例如 QT 既在电影 DU 中扮演角色,又是电影 DU 的执导。

  3. SEO(SingleEntityOverlap): 关系两端只有单个实体共享,图中的例子,从小范围来说,JRB 出生在 Washington, 但是 Washington 是 USA 的首都,所以也可以说 JRB 出生在 USA。

    以往工作的不足以及重叠三元组出现的挑战

  1. 在实体对的组合之中,大多数实体对是没有关系链接的,这便存在很多的负例,也就造成了关系分类的不平衡。

  2. 重叠三元组的问题更是一个难点,因为其存在共享的实体,甚至两个实体存在多种关系,这便增加了难度,没有足够的训练数据,是难以学习或者根本无法学习这种关系的。

思想:采用全新的视角代替以往分类的视角,将关系建模为 S 到 O 的映射函数。提出一个全新的框架:CASREL。

框架详解

CASREL框架抽取三元组(subject, relation, object)主要包含两个步骤,三个部分。

    两个步骤:

  1. 第一步要识别出句子中的 subject 。

  2. 第二部要根据识别出的 subject, 识别出所有有可能的 relation 以及对应的 object。

    三个部分:

  1. BERT-based encoder module: 可以替换为不同的编码框架,主要对句子中的词进行编码,论文最终以BERT为主,效果很强。

  2. subject tagging module:目的是识别出句子中的 subject。

  3. relation-specific object tagging module:根据 subject,寻找可能的 relation 和 object。

  4. 其中 a 是 Encoder, b 和 c 称为 Cascade Decoder。

    框架图:

    BERT Encoder

这部分的就是对句子编码,获取每个词的隐层表示,可以采用 BERT 的任意一层,另外这部分是可以替换的,例如用 LSTM 替换 BERT。

   
Subject Tagger
  
这部分的主要作用是对 BERT Encoder 获取到的词的隐层表示解码,构建两个二分类分类器预测 subject 的 start 和 end 索引位置,对每一个词计算其作为 start 和 end 的一个概率,并根据某个阈值,大于则标记为1,否则标记为0。公式如下:

如框架图中所示,Jackie 被标记为 start,R 既不是 start 也不是 end, Brown 被标记为 end,其他的类似。在这里采用了最近匹配的原则,即与 jackie 最近的一个 end 词是 Brown, 所以 Jackie R. Brown 被识别为一个subject。文中并未考虑前面位置的情况。

    Relation-specific Object Taggers
    这部分会同时识别出 subject 的 relation 和相关的 object。
解码的时候比 Subject Tagger 不仅仅考虑了 BERT 编码的隐层向量, 还考虑了识别出来的 subject 特征,即下图。vsub 代表 subject 特征向量,若存在多个词,将其取向量平均,hn 代表 BERT 编码向量。

对于识别出来的每一个 subject, 对应的每一种关系会解码出其 object 的 start 和 end 索引位置,与  Subject Tagger 类似,公式如下:

我们以图中的例子详细说明一下,图中的例子仅仅画出了第一个 subject 的过程,即 Jackie R. Brown,对于这个,在关系 Birth_place 中识别出了两个 object,即 WashingtonUnited States Of America,而在其他的关系中未曾识别出相应的 object。当对 Washington 这个 subject 解码时,仅仅在 Capital_of 的关系中识别出 对应的 object: United States Of America。

    以上我们便可以得到抽取到的三个三元组如下:

  1. (Jackie R. Brown, Birth_place, Washington)

  2. (Jackie R. Brown, Birth_place, United States Of America)

  3. (Washington, Capital_of, United States Of America)

    从以上抽取出来的三元组,确实解决了最开始提到的 SEO 和 EPO 的重叠问题。

实验效果

验证CASREL框架效果采用的是两个公开的数据集,NYT 和 WebNLG。

具体的实验效果如下,其中 CASREL 分别采用了 随机初始化参数的BERT编码端、 LSTM 编码端以及预训练 BERT 编码端,实验结果主要说明以下结论:

  1. CASREL 框架确实有效,三种编码结构的效果都是要远高于其他的模型性能。

  2. 采用预训练 BERT 之后,CASREL 框架更是逆天。

结束语

        本文从全新的角度考虑三元组抽取工作,效果着实惊人,令人惊叹。不知道这样的架构是否可以在业界应用,以及在中文上的效果如何?

论文代码:https://github.com/weizhepei/CasRel

参考资料

  1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

相关注明

上述图片均来自于上述参考资料。


添加个人微信,备注:昵称-学校(公司)-方向,即可获得

1. 快速学习深度学习五件套资料

2. 进入高手如云DL&NLP交流群

记得备注呦

【ACL2020】最新效果显著的关系抽取框架了解一下?相关推荐

  1. 开源中文关系抽取框架,来自浙大知识引擎实验室

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx DeepKE DeepKE 是基于 Pytorch 的深度学习中文关系抽取处理套件. 环境依赖 ...

  2. LSR:用于文档关系抽取的潜在图结构迭代优化推理方法

    每天给你送来NLP技术干货! 来自:AI自然语言处理与知识图谱 大家好,我是大林,今天给大家分享一篇ACL2020文档关系抽取的文章,作者是Brauch. 论文题目: Reasoning with L ...

  3. 深度学习实体关系抽取研究综述笔记

    鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述.软件学报,2019,30(6): 1793−1818. http://www.jos.org.cn/1000-982 ...

  4. 知识图谱从哪儿来?实体关系抽取的现状和未来

    12月17日晚,2019年清华特奖获得者之一,清华大学自然语言处理实验室大四本科生高天宇,在智源论坛Live第1期,以<实体关系抽取的现状和未来>为主题,与150位观众进行了在线交流.本文 ...

  5. 【信息抽取】如何使用循环神经网络进行关系抽取

    事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...

  6. 技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来

    本文作者为:韩旭.高天宇.刘知远.转载自刘知远老师的知乎专栏,文章链接:https://zhuanlan.zhihu.com/p/91762831 最近几年深度学习引发的人工智能浪潮席卷全球,在互联网 ...

  7. 【论文】Awesome Relation Extraction Paper(关系抽取)(PART V)

    写在前面 之前介绍的关系抽取系列文章主要是属于pipeline形式的,即第一步用实体识别将关系对抽取出来,第二步才是对关系对的分类,这样的做法会导致误差的传递.另外有一种解决方案是端到端的joint ...

  8. 《面向对话的融入交互信息的实体关系抽取》--中文信息学报

    实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务.在新闻报道,维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面对对话文本的相关研究的还处于起始阶段.相 ...

  9. 知识图谱从哪里来:实体关系抽取的现状与未来

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支 ...

  10. 【论文阅读笔记】面向医学文本的实体关系抽取研究综述

    面向医学文本的实体关系抽取研究综述 写在前面 深度学习方法 监督学习 基于简单的CNN模型 基于CNN模型的改进 基于RNN模型 基于注意力机制的模型 远程监督的多实例学习 分段卷积神经网络模型及改进 ...

最新文章

  1. 如何打开python的交互窗口-使用Python显示图形交互窗口
  2. WEB中的敏感文件泄露
  3. linux 安装程序丢失链接动态库,Linux安装软件过程中提示缺少动态链接库.so的解决方法...
  4. [JavaWeb-MySQL]数据库的备份和还原
  5. 网页特效:用CSS3制作3D图片立方体旋转特效
  6. C++的头文件和实现文件分别写什么
  7. Linux逻辑运算优先级,linux中的逻辑运算和正则表达式
  8. UE3 GPU性能和分析
  9. 《Reids 设计与实现》第三章 跳跃表
  10. Enjoy模板里使用layui模板引擎laytpl
  11. 基于汇编的 C/C++ 协程 - 背景知识
  12. 如何评价《Java 并发编程艺术》这本书?
  13. Python + ElasticSearch:有了这个超级武器,你也可以报名参加诗词大会了!
  14. 8uftp怎么上传文件,8uftp怎么上传文件
  15. RSA加密工具类库C#,可加密二进制数组(用来加密文件)
  16. 长沙与华为联合“打样”,湖南智能网联汽车加速跑出新局面
  17. 整理一下第一次参加华为大数据挑战赛自己的一些收获吧(正式赛篇阶段一)
  18. 为什么说买腾讯云服务器通过代理商购买更划算
  19. 教师节,给老师们写一个随机点名的网页
  20. turtle库使用——漫天繁星+万花筒绘制

热门文章

  1. mysql 小数转换成百分数查出(保留两位小数百分数)
  2. MVVM 实战之计算器
  3. 开发自己的博客转发插件(跨域)
  4. 自制 Chrome Custom.css 设置网页字体为微软雅黑扩展
  5. 不使用setCustomView,设置ActionBar标题居中
  6. ubuntu 切换java环境,配置单独的用户环境
  7. bzoj3620 似乎在梦中见过的样子
  8. Android SDK Manager 中如果没有相应的镜像ARM XX Image
  9. POJ3254 Corn Fields(状态压缩DP)
  10. .NET基础拾遗(6)ADO.NET与数据库开发基础