Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work
- 研究任务
- 基于提示学习的ELECTRA
- 已有方法和相关工作
- ELECTRA
- 面临挑战
- 基于判别模型的预训练模型的few-shot能力很弱
- 创新思路
- 使用prompt方法来训练ELECTRA
- 实验结论
- ELECTRA learns distributions that align better with downstream tasks.
- 可以通过聚合表示或概率,自然地使该方法适应multi-token span,而MLMs需要回归式解码来适应multi-token的情况
- 需要更少的计算,比BERT和RoBERTa更高效,并且效果更好
Prompting Masked Language Models
使用一个映射将task label空间映射到单词表的空间,任务转变成预测映射后的单词,而且在预测多个masked tokens的时候基于prompt的方法不太直观
缺点
- MLM的这种使用方法偏离了预训练的目标
- 伪自回归解码方法在推理期间不能成批前向推理,在计算上是低效的
Prompting ELECTRA
分析表明,来自ELECTRA生成器的失败预测实际上可以将具有相反含义的否定词从正确的标记传送到鉴别器,这增强了ELECTRA区分zero-shot预测中具有相反含义概念的能力
ELECTRA可以通过重用discriminative head更容易解决multi-token选项中的任务
Tasks with single-token target words
对于每一个输入语句创造 个提示,该模型将正确的目标词预测为原始标记,将不正确的目标单词预测为生成的标记
在推理阶段模型对于每个目标选项,将其放入提示句子并输出最可能的选项
但是需要n个模板那么多词的前向推理,所以效率会低于MLMs
Tasks with multi-token target options
对于一个前提 xxx 和提示模板 T\mathcal{T}T
多个token直接暴力取平均:
这些方法完全重用ELECTRA的预训练权重,包括判别器头,并避免自回归式解码。与PET类似,由于其与预训练的差异,仅将其用于few-shot微调
Experiments
Conclusions
我们探索了基于提示的zero-shot和few-shot的判别性预训练模型。我们发现,这些模型的表现一直优于用同等甚至更少的计算量训练出来的MLMs,这表明判别性的预训练模型在zero-shot和few-shot上更有效
分析表明,ELECTRA的生成器很可能将反义词等否定词反馈给判别器,这在预训练期间起到了直接对比的作用
We also speculate that discriminative models are less vulnerable to the surface form competition(表现形式竞争是啥意思?)
我们希望在未来的工作中更深入地挖掘这一假设。
Remark
应该是投ACL的short paper,方法简单且work,毕竟是danqi女神组的工作
Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models相关推荐
- Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...
- Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...
- Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...
- Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
- Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...
- Stetman读paper小记:ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
- Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
- 【不想读paper的时候看看】阅读文献?
[不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...
- ELECTRA:Efficiently Learning an Encoder that Classifies Token Replacements Accurately
1 简介 ELECTRA:Efficiently Learning an Encoder that Classifies Token Replacements Accurately. 本文根据2020 ...
最新文章
- 测试用例的书写方式及测试模板大全
- VIM进阶-宏Macro
- Facebook视频支持AV1
- 面向对象测试与传统软件测试有何异同,面向对象软件测试与传统测试有何区别...
- css 倒三角_改善CSS的10种最佳做法,帮助你从样式中获得最大的收益。
- 【codevs3955】最长严格上升子序列(加强版)
- [再学Python] - 面向对象的程序设计- 对象和类
- MyCat之全局表和ER表
- jsmind-网页版的由js实现的思维导图
- 奶瓶(beini) 又一蹭网神器 1.2.2增强版带600万密码字典
- AndroidStudio导入Bmob后端云一系列错误
- selenium-动态id定位(126邮箱登录定位实例)
- 管理学专业学生必懂 3月25日 16:40
- Java中如何将时间设置为12小时制并区分上下午
- Neocities 免费HTML 网站空间,每月200 GB 流量托管静态网页超简单
- 测试apk-异常管控Sensor攻击者开发
- 生活娱乐 怎么治疗冻疮 有特效
- Laravel8 分页样式问题
- 怎样将Adobe Acrobat视图设置为单页滚动
- 【正点原子MP157连载】第十九章 Buildroot根文件系统构建-摘自【正点原子】STM32MP1嵌入式Linux驱动开发指南V1.7