清华大学的NLP研究团队又提出了一个新的任务:Cross document relation extraction。相应地,他们给出了任务的定义和数据集的构造、格式、说明等,也给出了两种baseline来进行跨文档关系抽取。期待能为跨文档关系抽取起到一个基石的作用。
想要获得更详细的资料,可以进入-> github链接:CodRED。

Abstract

关系抽取是构建知识图谱、智能问答的基础任务,目前存在句子关系抽取(从单个句子抽取实体之间的关系)、文档级关系抽取(从一篇文章中抽取多个实体对之间的关系)这两种主流任务。但是现实生活中,往往需要从多个文档来推测关系(比如智能问答),所以提出了一个新的任务和数据集(CodRED)。再给定实体的情况下,主要有两个任务:

  1. 文档检索:首先找到可以提供实体关系的文章,
  2. 关系推理:通过上述文章来进行多条推理,进而抽取出实体之间的关系。

Background

比如,通过多篇文章抽取Amun和Merneptah是姊妹关系。

Data Collection

对英文维基百科语料进行收集、分析、打标等工作来构建CodRED数据集。主要分为以下三个步骤:

  1. 首先对文章进行远程监督打标,为后续人工打标作为支撑
  2. 对关系和相关的证明(evidence)进行人工打标
  3. 生成实体对和关系路径的负样本

远程监督打标
首先利用BERT模型抽取文章中的实体,然后将实体的指代汇合到同一实体ID中。由于直接使用远程监督进行关系打标会带来很多噪声,所以文章设置了额外的条件:目标实体对之间至少存在一条推理路径(比如经过一个中间实体得到关系)。
人工打标
人工打标对远程监督抽取出的结果进行矫正。打标的内容包括:

  • 内容路径:可以从这些路径推理出实体之间的关系
  • 支撑(evidence)句子:可以做为关系路径的支撑内容。

实体对和关系路径的负样本
以前的一些RE数据集都有很致命的一个问题:实体之间的关系和实体的名称有明显的联系,所以模型通过这些数据集学到的并不是实体之间真正的关系,而是关系和名称的对应(也就泛化能力不行,记住了刻板的套路),所以文章加入了大量的负样本来减轻这一问题。
包括实体关系负样本和路径负样本。其中实体关系负样本占比15.6%,

Post-Processing and Benchmarks

将数据集、负样本划分为训练、测试、验证集。并且有两种设置,分别来实现不同的功能。
Closed Setting
只用在给定的数据集中抽取实体的关系,并不需要先检索出相关文章,再进行关系抽取。主要用来检测模型抽取关系的能力。其任务定义为:给定实体对,给定正样本的内容路径和负样本的内容路径来进行推理,进而抽取出关系。
Open Setting
该任务设定为首先检索出相关文章、内容路径,然后在进行关系抽取。可想而知,第二种设置的任务更难,但是也更贴近实际情况。

Baselines

文章中提出了两种方法作为baseline。一是pipline的方法,二是end-to-end的方法。

  • pipline
    首先对含有头实体或者尾实体的文章进行编码,然后在实体两侧插入特殊标识符(BERT的常用操作了)。然后选择文章内容,由于文章很长,所以挑选出与实体相关的内容(周围512个token),长尾依赖广泛存在于NLP任务重,亟待解决。将CLS作为实体对的表征输入到全连接层中,进行关系分类。文章说用到了“Intra-document Relational Graph Extraction”,但是并没有看到具体的图模型,仍然是序列模型。

  • end-to-end
    pipline模型有误差传播这一不足(如果只使用一个损失函数,pipline模型也没有误差传播。上述pipline模型应该也只有一个损失函数,后续看了代码之后再来更改),所以采用端到端的方式(文本翻译常用模型)来进行抽取。
    分为文章内关系抽取和跨文档关系抽取。文章内关系抽取和pipline模型一致。跨文档关系抽取首先对内容路径进行编码,然后将文章拼接起来进行编码、插入实体标识,通过BERT获得实体表征。再用注意力机制来对路径进行融合,得到最终路径再进行分类。

Experiments


end-to-end效果更好。

一些想法

首先CodRED对比与DocRED而言,没有清晰的数据格式说明,看了github的数据,不太看得懂。比如下图,不太清楚前面字符的意思,是指文档编号吗。

然后对于该任务而言,跨文档关系抽取和智能问答/检索的差异性,因为给人感觉这两个任务是有一定的相似性的,文章说的不是很明确。
用CLS来表征实体对不太准确,会给模型带来噪音,因为CLS一般用于表征整个句子。
如何解决长尾依赖是个很大的问题。

CodRED: A Cross-Document Relation Extraction Dataset for Acquiring Knowledge in the Wild相关推荐

  1. 论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集

    文章目录 abstract 1.Introduction 2.数据收集 3.数据分析 4.基线设置 5.实验 Yao, Y., et al. (2019). DocRED A Large-Scale ...

  2. 文档级关系抽取:QIUXP:DORE: Document Ordered Relation Extraction based on Generative Framework

    DORE: Document Ordered Relation Extraction based on Generative Framework 文档级关系抽取是从整篇文档中抽取出三元组.更难,但也很 ...

  3. 每天读一篇论文2--Document-level Relation Extraction with Cross-sentence Reasoning Graph

    摘要: 关系抽取(RelationExtraction,RE)已经从句子级发展到文档级,需要聚集文档信息并使用实体和提及进行推理.现有研究将具有相似表示的实体节点和提及节点放在文档级图中,其复杂的边会 ...

  4. 文献学习02-Effective Modeling of Encoder-Decoder Architcture for Joint Entity and Relation Extraction

    论文信息 (1)题目:Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extracti ...

  5. 关系抽取论文总结(relation extraction)不断更新

    2000 1.Miller, Scott, et al. "A novel use of statistical parsing to extract information from te ...

  6. {ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)

    半开放关系抽取 用FOBIE训练一个narrow IE 训练一个OpenIE 用narrowIE矫正OpenIE 1.Introduction 标注困难. 跨领域标注更难 TRADE-OFF rela ...

  7. Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取,语法模型,跨领域关系抽取

    文章目录 1.Introductiony 1.1 神经网络的关系抽取 1.2使用依赖树的关系抽取 1.2.2 依赖树的一般树 1.3 本文做法 2. 相关工作 2.1核方法 2.2 深度学习方法 2. ...

  8. 20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关

    文章目录 abstract 1.introduction 2.相关工作 2.1. Named entity recognition 2.2. Relation classification 2.3 联合 ...

  9. 文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)

    文章目录 abstract 1.Introduction 2 背景 3.数据收集 4.Model 5.实验 6.result 7 Model Analysis and Timelines Vashis ...

  10. 论文阅读课11-TEMPROB:Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource

    文章目录 abstract 1.Introduction 2.相关工作 3 TEMPROB: A Probabilistic Resource for TempRels 3.1 事件抽取 3.2Tem ...

最新文章

  1. NoSQL数据库四大分类
  2. Windows下Redis中RedisQFork位置调整
  3. 短视频风口创业不容易,您信吗?
  4. spring和hibernate整合的几种方式详细介绍
  5. [云炬创业管理笔记]第一章测试2
  6. sqlserver 安装共享功能什么意思_手表上的小表盘,大表盘是什么意思?它们可以带来哪些好玩的功能...
  7. nmon工具安装及使用
  8. php数字补零的两种方法
  9. fatal error LNK1120: 11 unresolved externals
  10. servlet-api-2.5.jar - jar not loaded
  11. 一、传统应用带来的问题
  12. 数据结构课设之航空订票系统(Java)下载链接在文末
  13. R语言回归及混合效应模型及贝叶斯实现
  14. ffmpeg 图片合成视频黑屏 不兼容问题合成MP4
  15. Ripple相关资源汇总
  16. Git学习:来自fengyu的b站听课笔记
  17. C#chart控件如何同时显示两条曲线?
  18. 利用stm32cubemx生成单极性倍频spwm调制代码步骤
  19. python 全栈开发,Day106(结算中心(详细),立即支付)
  20. 使用DataX将mysql中做数据导出时 提示 java.sql.SQLException: Could not retrieve transation read-only status server

热门文章

  1. PowerBI切换日期维度
  2. html360全景图原理,HTML5中Canvas如何实现360度全景图
  3. 基于RT1052 Aworks 测试PXP图像混合功能(十三)
  4. 注册时出现服务器错误,创建Apple ID时出现服务器错误,导致无法完成注册是什么原因...
  5. idea怎么替换git地址(简单明了的教程)
  6. 肿么用photoshop将位图转化成矢量图
  7. oracle创建数据库的先决条件,Oracle数据库安装先决条件检查失败解决方案
  8. 【ReID】EANet: Enhancing Alignment for Cross-Domain Person Re-identification
  9. CodeForces - 1389E E. Calendar Ambiguity(数学)
  10. 关于UNI-APP微信小程序订阅信息订阅获取失败的问题处理