这篇文章是浙江大学2020年9月15号推到Arxiv上的。

文章的初始出发点应该是来自,关系抽取数据集由于数据存在长尾特征,因此直接从数据中学习语义,必定是不均衡的【样本多的语义容易过拟合某个类别中的头部样本,样本少的语义容易过拟合某个类别中的单个样本】。

因此采用引入外部预训练的词向量来进行语义embedding就说得通。
同时又知道,我们有三种采样的方式,来进行长尾数据集的再平衡,即将长尾数据集变成某种意义上的平衡数据集。分别是instance balance, class balance和re-weighted loss。Ok,那么我们通过这三个方法,结合bert可以训练出三种representation。

由于Bert模型同时包括预训练的词向量,这个预训练词向量经常为人们拿来做预训练模型。还包括一个分类器,即一个全连接层去给词进行分类预测。由于本文场景是关系抽取,因此最后的全连接层用来根据样本预测关系。【自己要实现要给bert-base-uncased】

那么究竟是预训练的词向量作用大,还是分类器(分类矩阵)的作用大?
整篇文章的分析建立在一个解耦实验上。该文章将解耦实验分成了两个step:
1. 用三种方式训练出表示层:instance-balance sampling, class-balance sampling, re-weighted loss。
2. 然后固定表示层的参数,再去训练分类器。

上图就是九组实验,采用了控制变量的思想:
1. 如果在第一步使用IBS的representation,那么可以看到使用REL和CBS的分类器效果好于使用IBS的分类器。
2. 固定第二步的分类器为RWL,那么可以看到无论使用哪种表示方法,其实对模型的影响都不大。

通过如上的解耦实验,我们可以得出本文题目给出的结论,即:

分类器是个魔鬼啊!就是这个魔鬼导致我们的模型无法去给有长尾特征的关系抽取数据集进行分类!

注:评价指标是macro F1值。

原本我以为这篇文章到这里就已经反映出了标题中的全部信息。没想到啊,作者还给了个解决方案,提出了一个更好的分类器叫做Attentive relation routing(ARR)来boost模型的表现。他的motivation来自[2017 Dynamic routing between capsules. ][ 2020Capsules with inverted dot-product attention routing ] (which is able to assign soft weights via route-by-agreement )。

之前focal loss和dice loss是采用hard weight使分类器匹配测试集的分布。而motivation采用了soft weight,方法是route-by-agreement。方法本身并不是熟悉的网络拼接,还需要再看一下参考文献[2017 Dynamic routing between capsules. ][ 2020Capsules with inverted dot-product attention routing ]。

证明该文方法效果好的主实验就是使用bert-base-uncased的表示层,然后把该文提出的ARR作为分类器,进行关系分类。

该文在数据集方面有一个设计:通过FewRel平衡数据集构建了一个长尾数据集,基于公式:

其中nin_ini的意思是第i个类别的削减后的训练样本数目,nmaxn_{max}nmax是样本最多的类别的样本数目,yitayitayita 是最大样本数除以最小样本数作为不平衡率。
验证集合和测试集合平均从每个RelRel的每个类别种抽取100个样本。最后构建出的FewRel-LT(long tail),以及原本有长尾特征的Tacred数据集样本统计如下:

文章还做了进一步的分析,对于样本数量不同的类别,模型对每个类别的分类能力又是什么样子呢?

那么将FewRel-LT所有的类别根据样本数目分成三组:样本数大于100为一组;样本数处在20到100为一组;样本数目小于20为一组。(为了避免信息泄露,作者移除了train和test种具有相同实体对的样本)。

从该图中可以看到,class-balance对比base(instance balance)提升了尾部,但是中部降低。
Focal loss 提升了头部但是后面两个部分降低。而本文方法在各个组内都有所升高.

自己还要补充学习:
1. 最后都分组对比了,为什么不直接比较一下各个类别上的分类能能力.
2. macro F1的深度理解.
3. 文章将来还要结合neural architecture search来辨别更好的表示和分类器.

【论文精读】The Devil is the Classifier: Investigating Long Tail Relation Classification with Decoupling相关推荐

  1. NRE论文总结:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

    acl论文阅读(Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification,中科 ...

  2. 论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection

    1.JML方法 这篇2021EMNLP的论文首先定义了联合多模态方面集情感分析任务. 在给定数据样例D={(X_n,I_n,A_n,S_n)}n=1~N的情况下,X为长为k的单词序列,I是的图片.而联 ...

  3. 李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)

    文章目录 一. 前言 1.1 DALL·E简介 1.2 DALL·E2简介 1.3 文生图模型进展 二. 引言 2.1 摘要 2.2 引言&模型结构 三. 算法铺垫 3.1 GANs 3.2 ...

  4. 【nature论文精读】Impedance-based forecasting of lithium-ion battery performance amid uneven usage

    [nature论文精读] Impedance-based forecasting of lithium-ion battery performance amid uneven usage 文章目录 [ ...

  5. Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读

    Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读 论文:Two-Stream Convolution ...

  6. 【VQ-VAE-2论文精读】Generating Diverse High-Fidelity Images with VQ-VAE-2

    [VQ-VAE-2论文精读]Generating Diverse High-Fidelity Images with VQ-VAE-2 0.前言 Abstract 1 Introduction 2 B ...

  7. 论文精读——CenterNet :Objects as Points

    论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...

  8. 论文精读 | slam中姿态估计的图优化方法比较

    一. 摘要 对于位置环境中的自主导航问题,同步定位与建图(Simultaneous localization and mapping, SLAM)是一个非常重要的工具框架.根据SLAM字面含义可以得知 ...

  9. 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    文章目录 一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...

最新文章

  1. 通俗易懂,到底什么是区块链?
  2. android 清空canvas部分内容_Android自定义View实现圆形头像效果
  3. 搭建Mock Server
  4. debian重启ssh服务_VScode链接服务器并配置公钥SSH Keys
  5. NFC技术:Android中的NFC技术
  6. 36.session
  7. python获取文件列表失败_python – Pytesseract没有这样的文件或目录错误
  8. viper4Android md风格,ViPER4Android音效驱动
  9. 程序人生 - 参与杭州车牌摇号人数已破百万!附杭州车牌摇号及竞价操作指南!
  10. html中图片以图片中心放大旋转,图片旋转放大居中
  11. python基础知识-12-模块的了解
  12. VVC/JEM代码学习26:m_pcTrQuant-transformN*N
  13. GAGE USB信号采集卡
  14. PSO粒子群算法优化BP神经网络(PSO-BPNN)回归预测MATLAB代码
  15. 几款超牛逼的终端命令行工具!好用到爆
  16. css小游戏,js小游戏,Flex Box青蛙、冒险游戏、设计模式游戏等
  17. 小a和小b一起玩一个游戏,两个人一起抛掷一枚硬币,正面为H,反面为T。两个人把抛到的结果写成一个序列。如果出现HHT则小a获胜,游戏结束。如果HTT出现则小b获胜。问a获胜的概率?
  18. ux设计师怎样找同类产品_完成ux训练营后的前100天,担任产品设计师
  19. Java中脚手架是干什么用的_构建java web脚手架
  20. CSR867x开发基础教学 - CSR8675_sink工程如何自定义语音提示音

热门文章

  1. mysql 存储过程参数数组_如何给存储过程,传一个数组参数?
  2. 两条完全相同的数据怎么用sql语句删除一条
  3. C语言I博客作业07
  4. 性能测试指标和报告解析
  5. lol服务器位置地图,LOL老玩家一定能看懂的地图 每一个地点都充满回忆
  6. Android 音频播放之SoundPool的使用和封装
  7. 51单片机 AT24C04+蜂鸣器+Proteus仿真
  8. 字节与字符串之间的转化
  9. 为什么电影里黑客几乎不用鼠标?
  10. 广告化开发(基础知识)~广告生态链DSP/SSP/RTB/ADX的理解