论文链接: https://arxiv.org/abs/2109.04144

1. Motivation

在进行 sentence pair classification 的时候,如果是 few-shot learning, 使用 prompt-based finetuning 很容易产生启发式推理(Inference Heuristics)的问题(即:模型会因为一个句子对由同一个单词组成,从而假设这个句子对具有相同的含义), 然而这个问题在 zero-shot learning 下不会出现,这说明 finetuning 对 PLM 中的知识产生了很大的负面影响(灾难性遗忘),因此,作者旨在解决 few-shot learning下 prompt-based finetuning 的上述问题。

2. Contribution

  1. 证明zero-shot prompt-based模型在推理过程中使用词汇重叠启发式具有鲁棒性,且在相应的挑战数据集上具备较高性能;
  2. 在prompt-based finetuning 基础上提出了一个基于EWC正则化的rFT方式,该方式在一定程度上可以解决Inference Heuristics的问题。

3. Method

作者使用RoBERTa-large模型对每个数据集和每个跨数据大小KKK进行5个数据子采样,其中K∈16、32、64、128、256、512K∈{16、32、64、128、256、512}K∈16、32、64、128、256、512,表示每个标签的示例数量。然后提出了一种基于弹性权重整合(EWC)方法对prompt-based finetuning进行正则化。EWC是建立在 Fisher 矩阵之上专门用来解决灾难性遗忘问题,而Fisher矩阵也需要一部分的预训练数据,为了忽略这一点,作者假设Fisher信息和对应的权重具有很强的独立性,因此总的损失函数更新如下:

LrFT=αLFT+(1−α)λ2(θi−θi∗)2L_{rFT}=\alpha L_{FT}+(1-\alpha)\frac{\lambda}{2}(\theta_i-\theta_i^*)^2LrFT​=αLFT​+(1−α)2λ​(θi​−θi∗​)2

其中LFTL_{FT}LFT​为标准交叉熵,λ\lambdaλ为二次惩罚系数,α\alphaα是将这两项线性组合的系数。优化器的实现使用的是Chen的RecAdam。

4. Experiments

Datasets:在GLUE benchmark中的MNLI,SNLI,和QQP数据集上进行测试,其中每个数据集有in-distribution和challenge(研究人员为上述数据集构建了相应的挑战集,设计包含反对启发式的例子)两个部分。

Baseline:图中FT-fixn为baseline模型,将预训练的前n层进行简单权重固定,其中n层n∈6,12,18n∈{6,12,18}n∈6,12,18被冻结(包括标记嵌入),整个微调过程中只更新上层和LM头的权重。

Results:文章通过对512个例子(对于每个标签)进行调整后的中值性能来评估所有考虑过的调整策略,并将它们与原始的zero-shot性能进行比较,结果如下:

  1. 冻结层数具有不一样的结果,例如,基于FT-fix18模型时,FT在Hans和PAWS的challenge和avg得到改进,但在in-distribution上性能有所降低;
  2. 本文提出的L2正则化策略rFT在challenge上得到了改进,且在in-distribution上仅略有降低;
  3. 虽然prompt-based finetuning的性能较差,但在每个in-distribution和challenge的avg上,它仍然好于单纯的 finetuning 方法(即使用 classification head)。

图2显示了rFT在MNLI和Hans上有使用正则化和无正则化之间的差异值,可以看出:避免 Inference Heuristics 上,rFT 的效果比 finetuning 好,在non-entailment上的准确率有所提高,但还不及 zero-shot。

5. Thinking

刚开始对于prompt还有few-shot learning不太理解,所以对它们首先进行了一定的了解,同时这篇文章用到了HANS数据集,刚开始看的时候被MNLI和HANS数据集之间迷糊了一阵子,但瞧了论文《Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference》后,也有所理解,以下是引用论文中的一部分表述,该表述也表示了HANS作为挑战集所存在的难点,即entailment和non-entailment之间预测区域两极化。

That is, they nearly always predicted entailment for the examples in HANS, leading to near-perfect accuracy when the true label is entailment, and near-zero accuracy when the true label is non-entailment.

不得不说,图2我思考了挺久的,文中提出的rFT方式虽然使得non-entailment的预测准确率提高了,而entailment的准确率却有所降低,那么是如何体现rFT方式是可以解决motivation中所提到的问题呢?难道本文中考虑到的是overall accuracy而不是单一的准确率吗?

这篇文章主要是解决prompt-based finetuning 中产生的Inference Heuristics问题,而HANS数据集其中包含了许多启发式方法失败的例子,那么能不能说该文章主要的目的就是提出一个方法,该方法在HANS数据集上获得较高的准确率?——可以这么说

文中只是提出了一个假设,然后通过实验证明了这个假设,是不是解决了,而且是不是需要解决这个Inference Heuristics,论文是没有充分证明的

该文章的idea可以参考:发现存在某种问题,然后根据某种方法能解决这类问题,进而提升性能。

参考

知乎 闵映乾

知乎 刘鹏飞

知乎 Pikachu5808

论文《Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning》学习笔记相关推荐

  1. word2vec Parameter Learning Explained 论文学习笔记

    文章内容 1.word2vec模型:skipgram和CBOW 2.训练优化:hierarchical softmax 和 negative sampling. 一.CBOW模型 CBOW完成的事情是 ...

  2. 《word2vec Parameter Learning Explained》论文笔记

    word2vec Parameter Learning Explained Xin Rong(ronxin@umich.edu)[致敬] arXiv:1411.2738v4 [cs.CL] 5 Jun ...

  3. Word2vec Parameter Learning Explained (UMich 2016)

    Word2vec Parameter Learning Explained (UMich 2016)

  4. 《word2vec Parameter Learning Explained》论文学习笔记

    目录: 文章目录 1 Continuous Bag-of-Word Model 1.1 One-word context Update equation for hidden→output weigh ...

  5. word2vec Parameter Learning Explained学习笔记

    目录 原因: 看了几篇提及CBOW(Continuous Bag-of-Word)的综述,都没直接看懂.综述中都指向这篇文章的这张图. word2vec是一个预训练(pretrained)模型,在大量 ...

  6. word2vec Parameter Learning Explained

    由word2vec获得的词向量代表可以捕获语义信息 1. Continuous Bag-of-Word 模型 现在只考虑仅一个词的上下文,也就是模型在给定一个词的上下文下仅预测一个目标,这很像一元模型 ...

  7. word2vec Parameter Learning Explained(Hierarchical Softmax,Negative Sampling)

    主要思想是转化为Huffman tree 的随机游走,叶子结点词描述的概率,不需要遍历所有的V,只需要log(V)的时间 主要思想是从噪声分布来采取一些negative 样本

  8. 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...

  9. 论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning

    论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning NDSS 2021录用文章 目录 论文学习笔记 POSEID ...

  10. 论文学习笔记: Learning Multi-Scale Photo Exposure Correction(含pytorch代码复现)

    论文学习笔记: Learning Multi-Scale Photo Exposure Correction--含pytorch代码复现 本章工作: 论文摘要 训练数据集 网络设计原理 补充知识:拉普 ...

最新文章

  1. 是否保证Python列表的元素保持按插入顺序排列?
  2. <binding>和<operation>元素
  3. HTML5 Canvas、内联 SVG、Canvas vs. SVG
  4. Leetcode 82. 删除排序链表中的重复元素 II (每日一题 20210908)
  5. CPU主频频率越高,手机运行速度就越快吗?
  6. 算法设计与分析——回溯法——n皇后问题
  7. python导入类属性不存在_为什么我会得到一个错误:我的类中不存在该属性?
  8. Pessimistic and Optimistic locking
  9. 黑加仑妞 使用vue+flask做全栈开发的全过程(实现前后端分离)
  10. 《手机测试Robotium实战教程》——第2章,第2.2节Eclipse的安装
  11. STM32F407使用MFRC522射频卡调试及程序移植成功
  12. fiddler 查看接口响应时间
  13. php如何去重,php二维数组如何去重?(代码示例)
  14. PHP Mysql-创建数据库
  15. 计算机名称位数怎么改,请问下怎样更改电脑位数
  16. win10右键反应慢解决方法介绍【解决方法】
  17. 考研四六级英语引用名句
  18. android studio 报错 AAPT: error: style attribute ‘attr/colorPrimary (aka com.
  19. Android APP程序更新报解析软件包时出现错误问题解决方法
  20. 重磅官宣|数说故事联合GDMS高燃开启D3智能营销峰会

热门文章

  1. mysql视图之创建可更新视图
  2. DDD:领域驱动设计
  3. Python 数据可视化神器分享:pyecharts
  4. 分享我的2010年博客阅读列表
  5. 【Matlab】简单的滑模控制程序及Simulink仿真
  6. DirectX 3D 简单渲染流程
  7. OpenBLT的介绍、应用场景及开源许可
  8. iOS 设计模式 浅析MVC、MVP、MVVM
  9. 用于私网的IP地址段
  10. linux系统执行.exe文件