关系抽取(relation extraction)综述
关系抽取的各大数据集的sota方法网址:https://paperswithcode.com/task/relation-extraction
关系抽取的定义
关系抽取就是从一段文本中抽取出**(主体,关系,客体)**这样的三元组,用英文表示就是(subject, relation, object)
这样的三元组。所以关系抽取,有的论文也叫作三元组抽取。从关系抽取的定义也可以看出,关系抽取主要做两件事:
- 识别文本中的subject和object(实体识别任务)
- 判断这两个实体属于哪种关系(关系分类)。
例如,给出如下的句子:刘翔,1983年7月13日出生于上海,中国男子田径队110米栏运行员。我们可以抽取出实体关系三元组实例 (刘翔,出生地,上海)。
关系抽取的现实意义:关系抽取可以为知识图谱的自动构建、搜索引擎、问答等下游任务提供支撑。
关系抽取的分类
1. 根据训练方式分类
根据训练模型的方式是全监督还是半监督,可分为全监督的关系抽取和远程监督关系抽取。
全监督关系抽取
全监督关系抽取任务并没有实体识别这一子任务,因为数据集中已经标出了subject实体和object实体分别是什么,所以全监督的关系抽取任务更像是做分类任务。模型的主体结构都是特征提取器+关系分类器。特征提取器比如CNN,LSTM,GNN,Transformer和BERT等。关系分类器用简单的线性层+softmax即可。
全监督关系抽取常用的数据集是 SemEval-2010 Task 8 dataset,TACRED
经典论文:
- Relation Classification via Convolutional Deep Neural Network. COLING 2014
- Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. ACL2016
- Classifying Relations by Ranking with Convolutional Neural Networks. ACL2016
- Graph Convolution over Pruned Dependency Trees Improves Relation Extraction. EMNLP2018
最新进展(2020以后)
- Enriching Pre-trained Language Model with Entity Information for Relation Classification.
- Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers.
- Downstream Model Design of Pre-trained Language Model for Relation Extraction Task.
远程监督关系抽取
全监督关系抽取的弊端是需要人工标注,这样会耗费大量的人力物力。远程监督是通过已有的外部知识库来标注已有的文本数据。这种方法基于距离监督假设:如果知识库中的实体对之间存在关系,那么每个包含该实体对的文档都会表达该关系
。比如只要文本中出现了中国和北京,就将这两个实体标注为首都这个关系,这显然是不正确。
远程监督假设是一个强假设并且会导致错误标签问题,即提到两个实体的句子不一定表达他们在知识库中的关系。因此一般都将远程监督关系抽取任务作为一个多示例学习问题来放宽假设 。
多实例学习:
比如知识库中存在这样的三元组(A, C, B),有句子:[sent1, sent2, sent3, sent4],这个四个句子中都出现了(A,B)实体对,将这四个句子称为一个包(bag),这个包的标签是C。多示例学习是对包标签预测,而不是为每个句子预测关系标签。它假定,如果实体对存在关系,则包中至少有一个示例反映给定实体对的关系。
远程监督关系抽取常用的数据集是: NYT(53种关系)。
远程监督关系抽取,通常来说含有大量的噪声数据(也就是标错的数据),其主要任务是给数据集降噪。
经典论文:
- Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. EMNLP2015
- Neural Relation Extraction with Selective Attention over Instances. ACL2016
- Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks. COLING 2016
- DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. ACL18
最新进展(2019以后)
- GAN Driven Semi-distant Supervision for Relation Extraction. NAACL19
- Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction. ACL19
- Cross-relation Cross-bag Attention for Distantly-supervised Relation Extraction. AAAI19
2. 根据模型是pipeline还是joint分类
前面提到关系抽取的两个主要任务就是实体识别和关系分类,pipeline方法是将两个任务分离开来分别进行,先进行实体识别,再进行关系分类。这样存在的问题是会存在误差传播的情况,也就是实体识别的误差会影响到后面的关系分类任务,但是关系分类任务却无法对实体识别造成的误差进行优化。为了解决这个问题,目前各种joint方法正在兴起。
pipeline 方法
经典论文:
joint方法
常用数据集:NYT(24种关系),WebNLG
经典论文:
- Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. ACL2017
- Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism. ACL2018
最新进展(2020以后)
- A Novel Cascade Binary Tagging Framework for Relational Triple Extraction. ACL2020
- TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking
- Joint Entity and Relation Extraction with Set Prediction Networks
未完待续。
关系抽取(relation extraction)综述相关推荐
- 关系抽取概述及研究进展Relation Extraction Progress
关系抽取的概述及研究进展 关系抽取任务概述 关系抽取的定义 关系抽取的公开的主流评测数据集 ACE 2005 SemiEval 2010 Task8 Dataset: NYT(New York Tim ...
- 知识图谱课程报告-关系抽取文献综述
关系抽取文献综述 引言: 随着大数据的不断发展,在海量的结构化数据或非结构化数据中更低成本的抽取出有价值的信息越来越重要,可以说信息抽取是自然语言处理领域的一项最基本任务,信息抽取进而可被分成三个 ...
- 从大规模文献库中实现生物医学关系抽取
目录 背景概述与方法概述 背景概述 方法概述 Overview of BERE 结果与讨论 在单句注释的DDI数据集上测试 在远程监督的DTI数据集上进行测试 Discussion 背景概述与方法概述 ...
- 直播预告 | 长文本知识抽取:基于语义分割的文档级三元组关系抽取
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
- 论文小综 | 文档级关系抽取方法(上)
本文作者: 陈想,浙江大学在读博士,研究方向为自然语言处理 张宁豫,浙江大学助理研究员,研究方向为自然语言处理.知识表示与推理 1. 前言 关系抽取(Relation Extraction, RE)是 ...
- 关系抽取论文整理——早期文献
说明 本文是个人阅读文章的笔记整理,没有涉及到深度学习在关系抽取中的应用. 笔记中一部分来自个人解读,一部分来自原文,一部分来自网上摘录.[由于文章是分开做笔记,很多参考链接没有及时保留,还请谅解.如 ...
- 基于监督学习和远程监督的神经关系抽取
基于监督学习和远程监督的神经关系抽取 作者:王嘉宁 QQ:851019059 Email:lygwjn@126.com 最新:博主发表在华东师范大学学报(自然科学版)的<基于远程监督的关系抽 ...
- 利用依存分析完成开放领域关系抽取
利用依存分析完成开放领域关系抽取 1 问题描述 对于大规模的自由文本内容,完成开放领域三元组的抽取.即在不知道文本内容存在什么关系的情况下,抽取各种各样的关系,以三元组的形式表示出来.就是说,我们的目 ...
- Relation Extraction 关系抽取综述
文章目录 往期文章链接目录 Information Extraction v.s. Relation Extraction Existing Works of RE Pattern-based Met ...
- 关系抽取论文总结(relation extraction)不断更新
2000 1.Miller, Scott, et al. "A novel use of statistical parsing to extract information from te ...
最新文章
- 连接池和 Timeout expired异常
- rms 公式 有效值_怎样求信号中的RMS值?
- JAVA中循环删除集合中元素的方法总结
- NOIP信息奥赛--1995“同创杯”初中复赛题题解(五)
- C++空指针访问成员函数
- 小短文 | 高并发系统,如何计算并发量和峰值数据?
- oracle导出数据库中表出现导出报错(EXP-00003)未找到段 (0,0) 的存储定义
- mac地址规范及算法
- Python精通-Python集合操作详解
- linux 权限拒绝,linux – 权限被拒绝,虽然文件是chmod 777
- cmake 在安装mysql_cmake安装mysql
- Ext.Net学习笔记20:Ext.Net FormPanel 复杂用法
- 记一次针对Centos的入侵分析
- 小程序的云服务器规格,小程序的云服务器规格
- Three.js样条曲线、贝赛尔曲线
- java基于springboot在线小说阅读网站
- 向DPMFoam或MPPICFoam求解器中添加源项
- Oracle的表空间和sqlplus
- oracle从序列中查最大id,Oracle序列详解
- 深入php redis pconnect
热门文章
- 适合小白的几个入门级Python ocr识别库
- 激光计算机的基本原理和特点,3D激光传感器的原理及特点
- Android Studio 下载ndk
- html(jsp)登录页面
- 结巴分词有前空格_结巴分词详细讲解
- 一篇文章带你登顶 MacBook高效工作环境配置
- VC2010升级到VC2015遇到问题及解决办法
- Epub,Mobi,Azw3电子书格式的区别
- Python Tkinter教程(一)——tkinter编程基本步骤、窗口基本属性及Toplevel控件的使用
- C语言 - 直接插入排序、希尔排序、直接选择排序、堆排序、冒泡排序、快速排序、归并排序、基数排序。