Abstract&Introduction&Related Work

研究任务
- 基于提示学习的ELECTRA
已有方法和相关工作
- ELECTRA
面临挑战
- 基于判别模型的预训练模型的few-shot能力很弱
创新思路
- 使用prompt方法来训练ELECTRA
实验结论
- ELECTRA learns distributions that align better with downstream tasks.
- 可以通过聚合表示或概率，自然地使该方法适应multi-token span，而MLMs需要回归式解码来适应multi-token的情况
- 需要更少的计算，比BERT和RoBERTa更高效，并且效果更好

Prompting Masked Language Models

使用一个映射将task label空间映射到单词表的空间，任务转变成预测映射后的单词，而且在预测多个masked tokens的时候基于prompt的方法不太直观

缺点

MLM的这种使用方法偏离了预训练的目标
伪自回归解码方法在推理期间不能成批前向推理，在计算上是低效的

Prompting ELECTRA

分析表明，来自ELECTRA生成器的失败预测实际上可以将具有相反含义的否定词从正确的标记传送到鉴别器，这增强了ELECTRA区分zero-shot预测中具有相反含义概念的能力

ELECTRA可以通过重用discriminative head更容易解决multi-token选项中的任务

Tasks with single-token target words

对于每一个输入语句创造个提示，该模型将正确的目标词预测为原始标记，将不正确的目标单词预测为生成的标记

在推理阶段模型对于每个目标选项，将其放入提示句子并输出最可能的选项

但是需要n个模板那么多词的前向推理，所以效率会低于MLMs

Tasks with multi-token target options

对于一个前提 xxx 和提示模板 T\mathcal{T}T

多个token直接暴力取平均：

这些方法完全重用ELECTRA的预训练权重，包括判别器头，并避免自回归式解码。与PET类似，由于其与预训练的差异，仅将其用于few-shot微调

Experiments

Conclusions

我们探索了基于提示的zero-shot和few-shot的判别性预训练模型。我们发现，这些模型的表现一直优于用同等甚至更少的计算量训练出来的MLMs，这表明判别性的预训练模型在zero-shot和few-shot上更有效

分析表明，ELECTRA的生成器很可能将反义词等否定词反馈给判别器，这在预训练期间起到了直接对比的作用

We also speculate that discriminative models are less vulnerable to the surface form competition（表现形式竞争是啥意思？）

我们希望在未来的工作中更深入地挖掘这一假设。

Remark

应该是投ACL的short paper，方法简单且work，毕竟是danqi女神组的工作

Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models相关推荐

Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
【不想读paper的时候看看】阅读文献？
[不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...
ELECTRA：Efficiently Learning an Encoder that Classifies Token Replacements Accurately
1 简介 ELECTRA:Efficiently Learning an Encoder that Classifies Token Replacements Accurately. 本文根据2020 ...

Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models