每天给你送来NLP技术干货!


来自:圆圆的算法笔记

作者:Fareise

Prompt是当下NLP领域研究的热点之一,在ACL 2022中有很多prompt相关的工作。最近梳理了5篇ACL 2022中prompt的代表性工作,主要研究点集中在如何通过预训练或迁移学习生成更好的prompt,以及prompt在小样本学习、翻译、图文任务等场景中的应用。下面给大家分别介绍一下这5篇工作,也可以参考我之前更新的prompt相关文章。

1

预训练prompt在小样本场景的应用

论文题目:PPT: Pre-trained Prompt Tuning for Few-shot Learning

下载链接:https://arxiv.org/pdf/2109.04332.pdf

本文主要研究优化prompt tuning在few-shot learning场景下的效果,核心思路是利用预训练实现soft prompt embedding的初始化。如下图,prompt tuning使用可学习的隐空间prompt embedding进行finetune,代替明文的hard prompt,相比hard prompt实现了端到端的学习,并且需要finetune的参数量也非常小,取得了比较好的效果。然而,作者通过实验发现,prompt tuning在few-shot learning上效果较差。作者提出了Pre-trained Pormpt Tuning方法来提升prompt tuning在few-shot learning问题上的效果。

首先,作者对3种prompt tuning的优化策略在few-shot learning问题上分别进行了效果对比,包括hard prompt和soft prompt结合、label到text映射方法选择以及使用真实单词的embedding进行soft prompt的随机初始化。通过对比实验发现,hard+soft prompt结合的方法可以提升效果,但是仍然比finetune效果差。Label到text的映射方法对于效果影响很大,选择能够表达label对应含义的常用单词会带来最好效果。而使用单词embedding进行soft prompt的初始化在大模型上并没有明显的效果提升。

基于以上实验结果,作者提出了Pre-trained Pormpt Tuning解决few-shot learning问题,核心思路是对soft prompt进行预训练,得到一个更好的soft prompt初始化表示。对于每种类型的任务,设计一个和其匹配的预训练任务,得到soft prompt embedding的预训练表示。

本文以sentence-pair classification、multiple-choice classification、single sentence classification三种任务介绍了如何针对每种下游任务设计预训练任务学习soft prompt embedding。例如对于sentence-pair classification,作者设计了如下预训练任务。将2个句子对拼接在一起,如果两个句子来自同一个文档相邻两句话,则label为yes(完全一致);如果两个句子来自同一个文档但距离较远,则label为maybe;其他句子对label为no:

类似的,作者构造了multiple-choice classification和single sentence classification的预训练任务:

利用上述预训练任务,引入soft prompt embedding进行预训练,在下游任务finetune时,保持和预训练任务相同的形式,使用预训练好的prompt embedding作为初始化。以sentence-pair classification为例,整个过程如下图:

2

利用迁移学习提升prompt效果

论文题目:SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer

下载链接:https://arxiv.org/pdf/2110.07904.pdf

这篇文章同样研究如何使用迁移学习优化soft prompt tuning方法,核心思路是在source task上预训练soft prompt embedding,作为target task上的初始化。。

本文提出的SPoT方法如下图所示,在预训练语言模型和下游prompt tuning中间增加了一步Source Prompt Tuning,可以理解为soft prompt的预训练。预训练阶段会使用无监督任务、多个有监督任务联合学习soft prompt。在得到预训练的soft prompt后,再将其以初始化的方式应用到目标任务中。

从下图的实验结果可以看出,SPoT Tuning的方法,即使用多个任务进行soft prompt预训练,效果明显好于基础的prompt tuning,甚至可以和模型直接finetune的效果不相上下。而人工设计的prompt方法效果比finetune或soft prompt tuning要差得多。

接下来,作者探索了使用每个task的soft prompt embedding来描述不同task之间的可迁移性。作者通过计算每对task的soft prompt embedding之间的相似度来描述两个任务之间的相关性,绘制成了如下左侧热力图,相似task的soft prompt embedding相似度更高,证明soft prompt embedding可以反映task之间的相关性。

接下来,作者利用这种embedding相似度关系作为选择迁移学习中source task和target task的依据。从上面右侧图(每个点代表一个任务的source prompt,横坐标表示这个source prompt embedding和当前任务embedding相似度,纵轴代表使用这个source prompt进行迁移的效果提升幅度),可以看出,embedding相似度越高的,进行prompt迁移的效果提升越明显,存在一个明显的正相关关系。

3

图文领域小样本下的prompt方法研究

论文题目:A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models

下载链接:https://arxiv.org/pdf/2110.08484.pdf

本文针对基于prompt解决小样本场景下的图文任务(包括图文问答、看图说话、类目预测),主要研究了3个问题:prompt设计对zero/few shot的图文任务效果的影响、训练样本足够多的情况下prompt设计对效果的影响、不同预训练任务对zero/few shot的图文任务效果的影响。

下面介绍一下本文提出的FEWVIM小样本图文学习模型架构,整体架构如下图所示,包括模型结构、预训练任务、prompt设计3个方面。

在模型结构方面,FEWVIM整体框架采用了Encoder-Decoder的架构。利用Fast-RCNN进行图像的object detection,并生成每个检测出的目标对应region的表示,这种基于OD的方法是一般的图文任务常见做法之一。这些图像表示和文本表示拼接到一起,输入一个Transformer Encoder中。

在预训练任务方面,预训练的任务包括Prefix LM(将文本分成两个部分,前半部分和图像一起输入到Encoder中,Decoder预测文本的后半部分)以及MLM(随机mask掉15%的文本span,在Decoder中预测被mask掉的span)。

在预训练结束后,基于prompt将预训练图文模型应用到下游任务中。本文针对VQA和Captioning构造的prompt模板如下表所示,将两个任务都看成是序列生成任务。例如VQA的第一个模板,由于问题+<text_1>特殊token组成,输入到Encoder中,在Decoder中预测后续文本作为回答。

在实验结果中发现,prompt设计对zero/few shot效果影响较大,尤其是zero-shot的效果更容易受到prompt设计的影响。在预训练任务方面,MLM任务对VQA任务更好,PrefixLM对Captioning任务更好。这是由于MLM任务和基于prompt的VQA任务类似,都是预测mask span;而PrefixLM和Captioning更相似,都是根据前文进行生成。因此预训练任务和下游任务越相似,效果就越好。

4

小样本翻译问题下的prompt tuning

论文题目:MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better Translators

下载链接:https://arxiv.org/pdf/2110.06609.pdf

本文主要研究如何更好的使用prompt方法解决小样本翻译问题。直接使用预训练语言模型解决翻译的问题存在3个问题。首先,针对翻译任务设计合适的prompt模板是比较困难的。其次,预训练语言模型的预训练任务往往是对句子中的某些部分进行还原,输入和输出是相同语言且语义不相同的。而翻译任务要求输入和输入是两种语言且语义相同。这种预训练任务和翻译任务的差异导致很难直接将预训练语言模型应用到翻译任务中取得较好效果。最后,主流的预训练语言模型如GPT使用了decoder-only的单向结构,可能不是编码源语言句子的最优方法。

为了解决上述3个问题,本文提出了多阶段的MSP方法。针对第一个问题,文中使用前面工作中提出的continuous prompts而非text prompt,使用可训练的向量,在隐空间构造prompt。针对第二个问题,本文提出了多阶段prompting。多阶段prompting包含3个阶段,每个阶段会使用不同的隐空间prompt。第一个阶段使用预训练语言模型对源语言输入进行编码;第二个阶段利用第一阶段的编码结果,和另一个prompt,对源语言进行再编码;第三阶段利用第二阶段的编码和该阶段对应的prompt进行解码得到预测结果。3个阶段每个阶段都有一个对应的prompt。此外,本文使用GPT模型结构在101种语言的数据集上预训练了mGPT模型,作为整个方法的backbone。

5

如何设计最好的prompt示例顺序

论文题目:Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity

下载链接:https://arxiv.org/pdf/2104.08786.pdf

在引入多个prompt示例的时候(如下表的例子),示例不同的排列顺序会对预测效果产生非常大的影响。文中通过实验分析发现,表现不好的prompts示例拼接顺序,往往都是那些根据这个拼接顺序进行预测的时候,label的分布特别不均衡的。比如预测good和bad两种情况,某个顺序拼接prompts示例作为context进行预测时,99%的情况下都预测成good,那么这种顺序的拼接效果就不好。

基于这个分析结果,本文采用了如下拼接顺序优选的方法。首先构造所有可能的拼接顺序,输入到预训练语言模型中,用这些不同顺序拼接的句子分别作为context,让预训练语言模型生成后续的句子,这些句子构成了一个probing set。接下来计算每种顺序的拼接context下,产生的label的分布情况,通过熵来评估label的分布是否均匀,选择label分布均匀的拼接顺序。本文提出的方法示意图如下:

6

总结

本文为大家介绍了ACL 2022 Prompt相关的5篇代表工作。从这些工作中可以看出,目前prompt的研究热点是如何通过预训练、迁移学习等方法生成更高质量的隐空间prompt,提升在图文任务、翻译任务等多种场景下的效果。


最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

最新NLP Prompt代表工作梳理!ACL 2022 Prompt方向论文解析相关推荐

  1. 解读两篇最新多元时间序列预测工作

    本文首发于公众号"圆圆的算法笔记" 解读两篇最新多元时间序列预测工作点关注,不迷路,用心整理每一篇算法干货~多元时间序列预测任务主要解决的是输入多变量时间序列,预测多变量未来序ht ...

  2. ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架...

    ©作者 | 清华大学.DeepMind等 来源 | 机器之心 以 GPT-3 为代表的预训练语言模型的发展,引发对小样本自然语言理解任务的极大关注.各种方法不断发展并展现出日渐强大的小样本自然语言理解 ...

  3. 从ACL 2022 Onsite经历看NLP热点

    作者 | AlbertYang 大家好,这里是NewBeeNLP.今天给大家分享一篇大佬的ACL参会总结,整理了一些当前NLP领域的热点和有趣的工作.以下是原文 作为拖延症患者马上要NAACL了才写这 ...

  4. ACL 2022:梳理视觉语言导航的任务、方法和未来方向|AI Drive

    近几年极为热门的研究方向视觉语言导航(Vision-and-Language Navigation,VLN)发展迅速. 今天的分享的ACL 2022论文是对视觉语言导航领域做了一个系统的综述,回顾了V ...

  5. ACL 2022丨香港大学华为诺亚方舟新工作:生成式预训练语言模型的量化压缩

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,香港大学与华为诺亚方舟实验室在 ACL 2022 上联合发表了 ...

  6. 医学自然语言处理(NLP)相关论文汇总之 ACL 2022

    医学自然语言处理(NLP)相关论文汇总之 ACL 2022 更多关于中文医疗自然语言处理的资源和论文汇总,请访问我的GitHub相关主页https://github.com/NiceSkyWang/C ...

  7. ACL 2022 | 字节跳动与新加坡科技与设计大学提出:基于演绎推理的数学解题

    ©作者 | 字节跳动AI Lab.UT Austin等 来源 | 机器之心 目前强大的语言模型普遍在很多下游 NLP 任务中能轻易地达到比较好的结果,但在推理效果上没有达到我们的预期 [1].字节跳动 ...

  8. ACL 2022录用结果出炉:国内多支团队晒“战绩”,清华一实验组18篇入选

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 大数据文摘转载自数据实战派 2月24日,第 60届国际计算语言学协会 ...

  9. ACL/NAACL‘22 推荐系统论文梳理

    2022推荐系统论文梳理系列 推荐系统相关顶会整理 IJCAI'22 推荐系统论文梳理 ICML/ICLR'22 推荐系统论文梳理 WWW'22 推荐系统论文之序列推荐篇 WWW'22 推荐系统论文之 ...

  10. ACL 2022 | 腾讯AI Lab入选20篇论文:写作助手和交互翻译背后的技术创新

    感谢阅读腾讯AI Lab微信号第146篇文章.本文介绍腾讯 AI Lab 被 ACL 2022 收录的研究成果. 国际最受关注的自然语言处理自然语言处理(NLP)顶级会议 ACL 2022 于今年 5 ...

最新文章

  1. ajax jsonp请求报错not a function的解决方案
  2. 山海树“医+药”O2O闭环 掘金8万亿市场
  3. 数据中心日常维护工作有哪些?
  4. Druid 介绍及配置
  5. 读书日当天冲上销量榜Top1和Top3,来听听携程人写书背后的故事
  6. 喇叭正反相位测试音频_音频功放失真的四大要点及改善方法
  7. 【openeuler 21.3】Linux硬盘分区、更改/home目录挂载空间及root目录扩容
  8. scara机器人dh参数表_机器人之DH参数例子-SCARA机器人
  9. electron编写我们第一个hello world程序和文件引入
  10. 使用代理ip会导致网络卡顿吗?
  11. Ubuntu Linux红色警戒Read Alert官方开源版OpenRA安装笔记
  12. 抛出异常关键字throw与定义异常关键字throws
  13. UltraEdit 11.10 可使用下列注册码注册
  14. 开源人工智能相关的Scratch插件
  15. shell while true if
  16. 企业即时通讯软件选型的注意事项
  17. 基于php校园失物招领,基于全景图的校园失物招领系统
  18. 【优化求解】基于自适应模拟退火粒子群优化算法求解单目标优化问题matlab代码
  19. GetTickCount() 的另一种实现方法
  20. HTML框架与内联框架

热门文章

  1. python习题错误整理(一)
  2. Mutual Review
  3. iOS开发手记-仿QQ音乐播放器动态歌词的实现
  4. 每一个与众不同的水瓶座
  5. 亚马逊ec2服务器上无法使用sudo执行npm命令的解决办法
  6. 开源项目filepond的独立自由之路:城市套路深
  7. 《转载》python爬虫实践之模拟登录
  8. 一、auto_test_base
  9. String.format(%03d, i)在数字前面补零
  10. 【转载】关于.NET下开源及商业图像处理(PSD)组件