Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据
1. 摘要
- 无监督的关系抽取,存在两大问题:噪声标签、训练数据不平衡
- 以往:研究集中在减少错误标签的关系(假阳性),很少研究由于知识库的不完备性导致的缺失关系(假阴性)
- 本文的贡献:
– 首先对负面数据进行分析
– 接下来,将关系抽取表述为一个正的无标签学习任务,缓解假阴性问题
– 提出模型RERE进行关系检测,然后进行subject和object提取
2. 问题分析
关系级别假阴性:抽取到的关系,在预定义的关系集中不存在
实体级别假阴性:S4、S5表示实体级别假阴性
阶级分布不平衡:负标签的数量远远大于正面标签的数量
2.1 解决假阴性问题
由百度百科标记的NYT数据集中的三元组为88253,由Wikidata标记的为58135。可以看到,由于知识库的不完备性,只用一个KB来标记,就会存在大量的FN,特别是当多个关系出现在一句中时,即使是人工标注。
2.2解决负面标签
采用先抽取关系,再抽取主体和客体的范式
3.模型
- 输入:[CLS], c i c_i ci,[SEP]
- 经过BERT生成token表示矩阵: H r c ∈ R N × d H_{rc} \in R^{N \times d} Hrc∈RN×d
- 将BERT输出的第一个token [CLS] 的编码向量 h r c 0 h_{rc}^{0} hrc0 作为句子表示,关系分类的最终输出为: y r c = σ W h r c 0 + b y_{rc}= \sigma{Wh^0_{rc}+b} yrc=σWhrc0+b
- 取关系分类的输出 y r c y_{rc} yrc(onehot),使用每个检测到的关系( y r c y_{rc} yrc中1的个数)来生成query
- 构造MRC格式:[CLS], q i q_i qi,[SEP], c i c_i ci,[SEP]
- 将上述输入到BERT中,得到token表示矩阵 H e e ∈ R N × d H_{ee} \in R^{N\times d} Hee∈RN×d
- 实体抽取的第K个输出指针由 y e e k = σ W H e e + b y_{ee}^k=\sigma{WH_{ee}+b} yeek=σWHee+b
4. Experiments
5. 启示
- 先抽取关系再抽取实体的范式,可以应用到监督领域
- 可以对模型进一步提取特征
- 增加两者之间的关联性
Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据相关推荐
- {ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)
半开放关系抽取 用FOBIE训练一个narrow IE 训练一个OpenIE 用narrowIE矫正OpenIE 1.Introduction 标注困难. 跨领域标注更难 TRADE-OFF rela ...
- 论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction?
论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction? 注:本文章初次编辑为2020年9月2日,最新编 ...
- 论文浅尝 | Learning with Noise: Supervised Relation Extraction
Luo B, Feng Y, Wang Z, et al. Learning withNoise: Enhance Distantly Supervised Relation Extraction w ...
- 文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)
文章目录 abstract 1.Introduction 2 背景 3.数据收集 4.Model 5.实验 6.result 7 Model Analysis and Timelines Vashis ...
- 关系抽取论文总结(relation extraction)不断更新
2000 1.Miller, Scott, et al. "A novel use of statistical parsing to extract information from te ...
- 关系抽取概述及研究进展Relation Extraction Progress
关系抽取的概述及研究进展 关系抽取任务概述 关系抽取的定义 关系抽取的公开的主流评测数据集 ACE 2005 SemiEval 2010 Task8 Dataset: NYT(New York Tim ...
- 【论文】Awesome Relation Extraction Paper(关系抽取)(PART IV)
0. 写在前面 不想写 1. Neural Relation Extraction with Multi-lingual Attention(Lin/ ACL2017) 这篇文章是在Lin 2016年 ...
- 论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction
论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction 夏栀的博客--王嘉宁的个人网站 正式上线,欢迎 ...
- Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning(DS——NER识别(减少人工参与))
目录 Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning 前言 文章贡献 Risk定义--基 ...
最新文章
- OpenCV 笔记(07)— Mat 对象输出格式设置(Python 格式、CSV 格式、NumPy 格式、C 语言格式)
- LeetCode Contains Duplicate III(滑动窗口)
- UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence
- alpine linux安装ftp,如何在Alpine Linux上安装GLPK?
- svn更换url地址怎么办
- tmpfs 文件系统介绍
- java双缓冲绘图_Java双缓冲技术-绘图应用
- python字典应用实例_Python中的字典应用实例
- office系统构架
- wpf之内容超出布局是用滚动条
- c语言入门程序下载,c语言入门自学软件下载
- win10桌面null图标删除
- 前端vue导出excel
- HttpModule 与 Globle.asax
- 打印word模板并预览打印
- 推荐系统实战--movieslens数据集实现UserCF算法
- SIP协议之术语定义
- 猜数字游戏PYS60版代码分享啦
- Mac电脑CPU、风扇转速、电池电量等硬件参数监控免费小插件-iStats
- bugku ctf come_game(听说游戏通关就有flag)
热门文章
- 含泪整理最优质生鲜食品网页设计模板素材,你想要的这里都有
- 如何进行内存容量测试?
- python画微信表情_python画微信表情
- [Unity3D]海岛奇兵金币等资源收取效果
- 搭建web服务器需要哪些步骤?
- CPU缓存:L1、L2 和 L3 缓存之间的区别
- python播放在线音乐_Python爬取网易云音乐播放地址
- 第二届美团网络安全高校挑战赛M-Champion,正式启动报名!
- 拒绝QQ空间-手把手教你美化博客
- python字典遍历value_Python遍历字典去key和value需要注意的点→enumerate和items()