这篇文章是ACL2020上的文章,来德国研究中心的Christoph Alt。

文章主要研究的是Tacred的数据集合中的Dev和Test集的标注错误,并且做了标注错误类型的分组,做了对比试验验证这些不同的错误原因对四个对比模型的影响,得出了 per:loc 和 same nertag&positive两个group的样例容易被分类错误的结论,并且认为将instance难度考虑到评估过程是有必要的。

这篇文章看到当前在Tacred上的SOTA模型仍然还有30%错误率,于是提出了问题,当前的Tacred的上的分类模型是否已经到达的了天花板;以及什么对于数据集和模型来讲是重要的。

作者从该任务最基本的组成部分——数据集本身出发,探究数据集中是否存在一些错误,导致模型无法正确分类。

那么由于Tacred数据集本身数据量还是比较大,因此需要筛选出一批最有可能出问题的样本。筛选方法是用49个模型对数据集分别在dev和test上测试,从dev和test集合中选出了最难分类的5000个样本。然后分成了Challenging(被一半模型分错)和Control(每个类别最多20个样本,至少被39个模型分类正确)两个集合。

然后通过人工校验这5000个数据点,这些校验人员都是经过明确的guidance和训练,校验标记后的结果如表2。

从这个表中可以看出对于Dev和Test中Challenging部分的数据,原数据集中错误标记占比还是比较高的,达到了50%;而在Control集合中,错误标记比较少,不到10%。【模型会因为50%的dev错误标注被带偏】。

从这个不同标记来源的一致性检验【附加的PDF中有例子】中可以看到,经过本文指导的标注者H1和H2的标注一致性比较高。而本文的标注结果H和原数据集C中的标注结果一致性仅有0.54左右。

作者在修改后的test集合上进行49个模型的验证,F1值从62.1%涨到了70.1%。作者认为这是Tacred上影响模型准确率的主要因素。本文还对比了Riedel et al. (2010) 远程监督数据集的错误率大概在31%,低于本文的监督数据集Tacred。但是,作者并不反对训练集中出现的错误,本文作者认为测试集应该是准确的。

接下来作者开始研究来自模型的误差是怎么来的,也就是什么样子,具有什么能力的模型更有效果。

第一步:
之前获得到的revisited 数据集继续使用,用两个标注人员为每个错误标记的样本指定“错误类型”。作者通过不同的错误类型,来验证模型具有哪些处理错误的能力,不具有哪些能力。从而得出模型的误差来源。

通过人工标记,共得出了9种错误类型:

这1017个re-annotated样本是49个模型中预测错误的最多的。错误大致分两个类别Argument error和context error。

第二步:
进行自动误差分析,首先定义了四组误差来源:
1.
Surface structure – Groups for argument distance (argdist=1, argdist>10) and sentence length (sentlen>30) •
2.
Arguments – Head and tail mention NER type (same nertag, per:, org:, per:loc), and pronominal head/tail (has coref) •
3.
Context – Existence of distracting entities (has distractor) •
4.
Ground Truth – Groups conditioned on the ground truth (positive, negative, same nertag&positive)

一共是13种具体情形。

第三步:
选取模型进行实验,CNN+masked,TRE,SpanBERT,KnowBERT四个模型。

图上的1234对应四组误差。以其中一个模型为例说明,CNN_masked,对于positive这个误差类别和sam_nertag&positive容易分错。而1 2 3组的样本容易分正确。而这两个容易分错的样本对模型的影响都比较大,即容易被模型误分类。

作者单独做了实验验证context对模型的影响。

对于一个句子,remove outside意思是移除两个实体外面的词;remove inside意思是移除两个实体中间的词。


表明,在same nertag&positive上,SpanBERT更关注entity masking和context,因此它deF1值会降低比较多;Knowbert更关注实体本身的语义,因此下降不懂【将Knowbert和spanbert融合】

作者单独做实验验证了如果对实例难度进行加权后再验证,该权重来自49个模型,如果都被预测正确,权重为0,如果都被预测错误权重为1.使得模型更关注难分类的样本。


从表中可以看出,数据集合还是有很多容易分类的样本。

自己思考:

  1. 首先他的revisited的数据集没有给出。
  2. 其次这个最后加权仅仅是在评估的时候加上权重,总而更能校验模型对复杂样本的分类能力,但是没给出他们的re-annotated验证数据集,说屁呢?
  3. 尝试进行Spanbert和Knowbert优势融合。

【论文精读】TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task相关推荐

  1. 【论文翻译】Graph Convolution over Pruned Dependency Trees Improves Relation Extraction

    [论文翻译]Graph Convolution over Pruned Dependency Trees Improves Relation Extraction 摘要 1 引言 2 模型 2.1 依 ...

  2. 论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction

    论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction 夏栀的博客--王嘉宁的个人网站 正式上线,欢迎 ...

  3. 论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction?

    论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction? 注:本文章初次编辑为2020年9月2日,最新编 ...

  4. 论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection

    1.JML方法 这篇2021EMNLP的论文首先定义了联合多模态方面集情感分析任务. 在给定数据样例D={(X_n,I_n,A_n,S_n)}n=1~N的情况下,X为长为k的单词序列,I是的图片.而联 ...

  5. 【论文解读】A Frustratingly Easy Approach for Entity and Relation Extraction

    Abstract 对于实体识别和关系抽取的联合任务,大多数使用结构化预测模型或共享参数. 而作者使用一个简单的流水线模型实现.方法使用两个独立的编码器,关系抽取的输入仅仅是实体识别的结果. 通过实验, ...

  6. 论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

    文章目录 abstract 1.introduction 1.1 dense connection+GCN 1.2 效果突出 1.3 contribution 2.Attention Guided G ...

  7. 每天读一篇论文2--Document-level Relation Extraction with Cross-sentence Reasoning Graph

    摘要: 关系抽取(RelationExtraction,RE)已经从句子级发展到文档级,需要聚集文档信息并使用实体和提及进行推理.现有研究将具有相似表示的实体节点和提及节点放在文档级图中,其复杂的边会 ...

  8. Attention is all you need 论文精读笔记 Transformer

    目录​​​​​​​ 前言 正文 Relative works 模型架构 注意力 Attention Position-wise Feed Forward Network Embeddings and ...

  9. Lexical Simplification with Pretrained Encoders 论文精读

    Lexical Simplification with Pretrained Encoders 论文精读 Information Abstract 1 Introduction 2 Related W ...

最新文章

  1. python美国股票数据api_【美股量化00篇】Python获取新浪接口美股实时数据
  2. 前端(慕课网)笔记一
  3. win7(64)与samba不兼容
  4. Java基础语法初学者了解
  5. Team Foundation Server简介
  6. iPhone上传文件到ftp服务器,将文件上传到iPhone上的FTP服务器
  7. 三年Java开发经验,必须要掌握的知识技能树有哪些?
  8. 编码与调制(曼彻斯特编码、调制解调器等)
  9. Oracle 怎么开启,关闭归档
  10. android获取用户点击的坐标
  11. font-family:中文字体的英文名称 (宋体 微软雅黑)
  12. python黑客攻防入门mobi_《Flink入门与实战》配套资源
  13. 如何实现一个基于HTML5的实时视频直播
  14. stm32时钟和通信方式及stm32cubemx 配置usart通信
  15. RabbitMQ None of the specified endpoints were reachable 错误 解决方案
  16. 震惊!!!郑州市一程序员在上班时趁着公司没人竟然在看......
  17. 蓝桥杯单片机数码管动态显示_关于蓝桥杯训练小程序 中断控制数码管显示数字的左右移动...
  18. 工信部通报下架60款APP:关联有赞、三六零、唯品会等上市公司
  19. Perl 批评的游乐园镜子
  20. 工作3个月后个人对测绘专业的重新反思(重新思考武大测绘学科就业问题和读研问题)

热门文章

  1. 【Python学习笔记】- 06 函数式编程
  2. 微信小程序 - video组件poster无效 / 视频播放列表
  3. mysql导出xls_MySQL导出 xls上传到异机
  4. 《心流-最佳体验心理学》读书笔记1-立于“无常”之中
  5. java将大写数字转换成小写并输出
  6. 每天一点产品思考(3):“稍后阅读”功能真的能有效解决碎片信息处理问题吗?...
  7. 全局刷新和局部刷新的理解
  8. Win10添加右键菜单以管理员方式打开cmd命令行
  9. 纯css制作遮罩层特效
  10. 土微数字隔离器和接口类芯片可完美替代进口品牌TI和ADI