1. 摘要

  • 无监督的关系抽取,存在两大问题:噪声标签、训练数据不平衡
  • 以往:研究集中在减少错误标签的关系(假阳性),很少研究由于知识库的不完备性导致的缺失关系(假阴性)
  • 本文的贡献:
    – 首先对负面数据进行分析
    – 接下来,将关系抽取表述为一个正的无标签学习任务,缓解假阴性问题
    – 提出模型RERE进行关系检测,然后进行subject和object提取

2. 问题分析

关系级别假阴性:抽取到的关系,在预定义的关系集中不存在
实体级别假阴性:S4、S5表示实体级别假阴性

阶级分布不平衡:负标签的数量远远大于正面标签的数量

2.1 解决假阴性问题

由百度百科标记的NYT数据集中的三元组为88253,由Wikidata标记的为58135。可以看到,由于知识库的不完备性,只用一个KB来标记,就会存在大量的FN,特别是当多个关系出现在一句中时,即使是人工标注。

2.2解决负面标签

采用先抽取关系,再抽取主体和客体的范式

3.模型

  1. 输入:[CLS], c i c_i ci​,[SEP]
  2. 经过BERT生成token表示矩阵: H r c ∈ R N × d H_{rc} \in R^{N \times d} Hrc​∈RN×d
  3. 将BERT输出的第一个token [CLS] 的编码向量 h r c 0 h_{rc}^{0} hrc0​ 作为句子表示,关系分类的最终输出为: y r c = σ W h r c 0 + b y_{rc}= \sigma{Wh^0_{rc}+b} yrc​=σWhrc0​+b
  4. 取关系分类的输出 y r c y_{rc} yrc​(onehot),使用每个检测到的关系( y r c y_{rc} yrc​中1的个数)来生成query
  5. 构造MRC格式:[CLS], q i q_i qi​,[SEP], c i c_i ci​,[SEP]
  6. 将上述输入到BERT中,得到token表示矩阵 H e e ∈ R N × d H_{ee} \in R^{N\times d} Hee​∈RN×d
  7. 实体抽取的第K个输出指针由 y e e k = σ W H e e + b y_{ee}^k=\sigma{WH_{ee}+b} yeek​=σWHee​+b

4. Experiments

5. 启示

  1. 先抽取关系再抽取实体的范式,可以应用到监督领域
  2. 可以对模型进一步提取特征
  3. 增加两者之间的关联性

Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据相关推荐

  1. {ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)

    半开放关系抽取 用FOBIE训练一个narrow IE 训练一个OpenIE 用narrowIE矫正OpenIE 1.Introduction 标注困难. 跨领域标注更难 TRADE-OFF rela ...

  2. 论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

    论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction? 注:本文章初次编辑为2020年9月2日,最新编 ...

  3. 论文浅尝 | Learning with Noise: Supervised Relation Extraction

    Luo B, Feng Y, Wang Z, et al. Learning withNoise: Enhance Distantly Supervised Relation Extraction w ...

  4. 文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)

    文章目录 abstract 1.Introduction 2 背景 3.数据收集 4.Model 5.实验 6.result 7 Model Analysis and Timelines Vashis ...

  5. 关系抽取论文总结(relation extraction)不断更新

    2000 1.Miller, Scott, et al. "A novel use of statistical parsing to extract information from te ...

  6. 关系抽取概述及研究进展Relation Extraction Progress

    关系抽取的概述及研究进展 关系抽取任务概述 关系抽取的定义 关系抽取的公开的主流评测数据集 ACE 2005 SemiEval 2010 Task8 Dataset: NYT(New York Tim ...

  7. 【论文】Awesome Relation Extraction Paper(关系抽取)(PART IV)

    0. 写在前面 不想写 1. Neural Relation Extraction with Multi-lingual Attention(Lin/ ACL2017) 这篇文章是在Lin 2016年 ...

  8. 论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction

    论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction 夏栀的博客--王嘉宁的个人网站 正式上线,欢迎 ...

  9. Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning(DS——NER识别(减少人工参与))

    目录 Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning 前言 文章贡献 Risk定义--基 ...

最新文章

  1. OpenCV 笔记(07)— Mat 对象输出格式设置(Python 格式、CSV 格式、NumPy 格式、C 语言格式)
  2. LeetCode Contains Duplicate III(滑动窗口)
  3. UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence
  4. alpine linux安装ftp,如何在Alpine Linux上安装GLPK?
  5. svn更换url地址怎么办
  6. tmpfs 文件系统介绍
  7. java双缓冲绘图_Java双缓冲技术-绘图应用
  8. python字典应用实例_Python中的字典应用实例
  9. office系统构架
  10. wpf之内容超出布局是用滚动条
  11. c语言入门程序下载,c语言入门自学软件下载
  12. win10桌面null图标删除
  13. 前端vue导出excel
  14. HttpModule 与 Globle.asax
  15. 打印word模板并预览打印
  16. 推荐系统实战--movieslens数据集实现UserCF算法
  17. SIP协议之术语定义
  18. 猜数字游戏PYS60版代码分享啦
  19. Mac电脑CPU、风扇转速、电池电量等硬件参数监控免费小插件-iStats
  20. bugku ctf come_game(听说游戏通关就有flag)

热门文章

  1. 含泪整理最优质生鲜食品网页设计模板素材,你想要的这里都有
  2. 如何进行内存容量测试?
  3. python画微信表情_python画微信表情
  4. [Unity3D]海岛奇兵金币等资源收取效果
  5. 搭建web服务器需要哪些步骤?
  6. CPU缓存:L1、L2 和 L3 缓存之间的区别
  7. python播放在线音乐_Python爬取网易云音乐播放地址
  8. 第二届美团网络安全高校挑战赛M-Champion,正式启动报名!
  9. 拒绝QQ空间-手把手教你美化博客
  10. python字典遍历value_Python遍历字典去key和value需要注意的点→enumerate和items()