清华大学的NLP研究团队又提出了一个新的任务：Cross document relation extraction。相应地，他们给出了任务的定义和数据集的构造、格式、说明等，也给出了两种baseline来进行跨文档关系抽取。期待能为跨文档关系抽取起到一个基石的作用。
想要获得更详细的资料，可以进入-> github链接：CodRED。

Abstract

关系抽取是构建知识图谱、智能问答的基础任务，目前存在句子关系抽取（从单个句子抽取实体之间的关系）、文档级关系抽取（从一篇文章中抽取多个实体对之间的关系）这两种主流任务。但是现实生活中，往往需要从多个文档来推测关系（比如智能问答），所以提出了一个新的任务和数据集（CodRED）。再给定实体的情况下，主要有两个任务：

文档检索：首先找到可以提供实体关系的文章，
关系推理：通过上述文章来进行多条推理，进而抽取出实体之间的关系。

Background

比如，通过多篇文章抽取Amun和Merneptah是姊妹关系。

Data Collection

对英文维基百科语料进行收集、分析、打标等工作来构建CodRED数据集。主要分为以下三个步骤：

首先对文章进行远程监督打标，为后续人工打标作为支撑
对关系和相关的证明（evidence）进行人工打标
生成实体对和关系路径的负样本

远程监督打标
首先利用BERT模型抽取文章中的实体，然后将实体的指代汇合到同一实体ID中。由于直接使用远程监督进行关系打标会带来很多噪声，所以文章设置了额外的条件：目标实体对之间至少存在一条推理路径（比如经过一个中间实体得到关系）。
人工打标
人工打标对远程监督抽取出的结果进行矫正。打标的内容包括：

内容路径：可以从这些路径推理出实体之间的关系
支撑（evidence）句子：可以做为关系路径的支撑内容。

实体对和关系路径的负样本
以前的一些RE数据集都有很致命的一个问题：实体之间的关系和实体的名称有明显的联系，所以模型通过这些数据集学到的并不是实体之间真正的关系，而是关系和名称的对应（也就泛化能力不行，记住了刻板的套路），所以文章加入了大量的负样本来减轻这一问题。
包括实体关系负样本和路径负样本。其中实体关系负样本占比15.6%，

Post-Processing and Benchmarks

将数据集、负样本划分为训练、测试、验证集。并且有两种设置，分别来实现不同的功能。
Closed Setting
只用在给定的数据集中抽取实体的关系，并不需要先检索出相关文章，再进行关系抽取。主要用来检测模型抽取关系的能力。其任务定义为：给定实体对，给定正样本的内容路径和负样本的内容路径来进行推理，进而抽取出关系。
Open Setting
该任务设定为首先检索出相关文章、内容路径，然后在进行关系抽取。可想而知，第二种设置的任务更难，但是也更贴近实际情况。

Baselines

文章中提出了两种方法作为baseline。一是pipline的方法，二是end-to-end的方法。

pipline
首先对含有头实体或者尾实体的文章进行编码，然后在实体两侧插入特殊标识符（BERT的常用操作了）。然后选择文章内容，由于文章很长，所以挑选出与实体相关的内容（周围512个token），长尾依赖广泛存在于NLP任务重，亟待解决。将CLS作为实体对的表征输入到全连接层中，进行关系分类。文章说用到了“Intra-document Relational Graph Extraction”，但是并没有看到具体的图模型，仍然是序列模型。
end-to-end
pipline模型有误差传播这一不足（如果只使用一个损失函数，pipline模型也没有误差传播。上述pipline模型应该也只有一个损失函数，后续看了代码之后再来更改），所以采用端到端的方式（文本翻译常用模型）来进行抽取。
分为文章内关系抽取和跨文档关系抽取。文章内关系抽取和pipline模型一致。跨文档关系抽取首先对内容路径进行编码，然后将文章拼接起来进行编码、插入实体标识，通过BERT获得实体表征。再用注意力机制来对路径进行融合，得到最终路径再进行分类。

Experiments

end-to-end效果更好。

一些想法

首先CodRED对比与DocRED而言，没有清晰的数据格式说明，看了github的数据，不太看得懂。比如下图，不太清楚前面字符的意思，是指文档编号吗。

然后对于该任务而言，跨文档关系抽取和智能问答/检索的差异性，因为给人感觉这两个任务是有一定的相似性的，文章说的不是很明确。
用CLS来表征实体对不太准确，会给模型带来噪音，因为CLS一般用于表征整个句子。
如何解决长尾依赖是个很大的问题。

CodRED: A Cross-Document Relation Extraction Dataset for Acquiring Knowledge in the Wild相关推荐

论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集
文章目录 abstract 1.Introduction 2.数据收集 3.数据分析 4.基线设置 5.实验 Yao, Y., et al. (2019). DocRED A Large-Scale ...
文档级关系抽取：QIUXP：DORE: Document Ordered Relation Extraction based on Generative Framework
DORE: Document Ordered Relation Extraction based on Generative Framework 文档级关系抽取是从整篇文档中抽取出三元组.更难,但也很 ...
每天读一篇论文2--Document-level Relation Extraction with Cross-sentence Reasoning Graph
摘要: 关系抽取(RelationExtraction,RE)已经从句子级发展到文档级,需要聚集文档信息并使用实体和提及进行推理.现有研究将具有相似表示的实体节点和提及节点放在文档级图中,其复杂的边会 ...
文献学习02-Effective Modeling of Encoder-Decoder Architcture for Joint Entity and Relation Extraction
论文信息 (1)题目:Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extracti ...
关系抽取论文总结（relation extraction）不断更新
2000 1.Miller, Scott, et al. "A novel use of statistical parsing to extract information from te ...
{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取，半开放关系抽取）
半开放关系抽取用FOBIE训练一个narrow IE 训练一个OpenIE 用narrowIE矫正OpenIE 1.Introduction 标注困难. 跨领域标注更难 TRADE-OFF rela ...
Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取，语法模型，跨领域关系抽取
文章目录 1.Introductiony 1.1 神经网络的关系抽取 1.2使用依赖树的关系抽取 1.2.2 依赖树的一般树 1.3 本文做法 2. 相关工作 2.1核方法 2.2 深度学习方法 2. ...
20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关
文章目录 abstract 1.introduction 2.相关工作 2.1. Named entity recognition 2.2. Relation classiﬁcation 2.3 联合 ...
文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL，时间关系，时间持续时间，数据集，语义框架，常识）
文章目录 abstract 1.Introduction 2 背景 3.数据收集 4.Model 5.实验 6.result 7 Model Analysis and Timelines Vashis ...
论文阅读课11-TEMPROB：Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource
文章目录 abstract 1.Introduction 2.相关工作 3 TEMPROB: A Probabilistic Resource for TempRels 3.1 事件抽取 3.2Tem ...

CodRED: A Cross-Document Relation Extraction Dataset for Acquiring Knowledge in the Wild