Abstract

只在输入空间中引入少量(小于1%的模型参数)可训练参数,同时保持模型主干不变。

在许多情况下,VPT甚至超越了模型容量和训练数据规模的全面微调,同时降低了每个任务的存储成本。

Introduction

常用技术:full fine-tuning,这种策略要求为每一个任务存储和部署一个独立的骨干参数副本。这是一个昂贵且通常不可行的命题,特别是对于现代的基于Transformer的体系结构

(a) 三种传统微调方法:Full fine-tuning, Head-oriented, and Backbone-oriented approaches

(b) VPT: 我们不是修改或微调预先训练的Transformer本身,而是修改对Transformer的输入

我们的方法只在输入空间中引入少量任务特定的可学习参数,而在下游训练时冻结整个预训练的Transformer骨干。在实践中,这些额外的参数只是预先添加到每个Transformer层的输入序列中,并在微调期间与线性头一起学习。

Related work

Adapters [64] and BitFit [5].

适配器[34]在每个Transformer层中插入额外的轻量级模块。一个适配器模块通常由一个线性向下投影、一个非线性激活函数和一个线性向上投影以及一个剩余连接组成[63,64]。[8]没有插入新的模块,而是在对ConvNets进行微调时,提出更新偏置项并冻结其余的骨干参数。BitFit[3]将该技术应用于变压器,并验证了其在LM调谐上的有效性。我们的研究表明,相对于前面提到的NLP中的两种完善的方法,VPT在适应Transformer模型的视觉任务方面提供了更好的性能。

prompt

treat the prompts as task-specific continuous vectors and directly optimize them via gradients during fine-tuning(最近的研究提出将提示符作为任务特定的连续向量,并在微调过程中通过梯度直接对其进行优化,即Prompt Tuning)

与完全微调相比,它获得了类似的性能,但使用了1000×less参数存储。

方法

VPT-Deep变体为Transformer编码器每层的输入预先设置一组可学习的参数;

VPT-Shallow变体则仅将提示参数插入第一层的输入。

两者在下游任务的训练过程中,只有特定于任务的提示和线性头的参数会更新,而整个Transformer编码器被冻结

方法:在原有VIT的基础上增加可学习的token参数P0P_0P0,这部分的参数需要梯度,其余部分全部冻结

给定一个预训练的Transformer模型,我们在Embed层之后的输入空间中引入一组p个维数为d的连续嵌入,即提示符。在微调期间,只有特定于任务的提示被更新,而Transformer主干被冻结。

结论

作者提出了一种新的参数有效的方法,将大规模视觉Transformer模型广泛应用到下游任务,即VPT。它超越了其他的微调方法。

Visual Prompt Tuning (VPT)相关推荐

  1. 多模态Prompt Tuning,你到底行不行?

    作者丨霜清老人@知乎 编辑丨极市平台 https://zhuanlan.zhihu.com/p/550544232 一次关于将prompt tuning应用到生成式多模态预训练模型的尝试. 最近两个月 ...

  2. Visual Prompt

    始于NLP 简单来讲,Prompt就是对原来的输入文本进行一定的处理,使得在不改变预训练模型参数的情况下,相应任务的性能变高.例如,原输入文本为:I received the offer from E ...

  3. CPT:刷爆少样本REC任务!清华刘知远团队提出跨模态预训练Prompt Tuning

    关注公众号,发现CV技术之美 本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出 ...

  4. 《CPT COLORFUL PROMPT TUNING FOR PRE-TRAINED》 论文笔记

    文章目录 摘要 1. NTRODUCTION 2 PRELIMINARY 3. CROSS-MODAL P ROMPT TUNING (CPT) 3.1 OVERVIEW 3.2 VISUAL SUB ...

  5. 直播活动丨BMMeetup第1期:大模型Prompt Tuning技术,8场学术报告和Poster提前下载...

    「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...

  6. 线下活动丨Big Model Meetup 第1期:大模型Prompt Tuning技术,8场学术报告和Poster展示...

    「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...

  7. 清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索

    ©作者 | 曾伟豪 学校 | 北京邮电大学 研究方向 | 对话摘要生成 论文标题: Exploring Low-dimensional Intrinsic Task Subspace via Prom ...

  8. 清华刘知远团队巨作!Pre-trained Prompt Tuning框架,让超大模型调参变简单

    点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 机器之心报道 来自清华大学的刘知远.黄民烈等研究者提出了一个名为「PPT」的新框架.PPT=Pre-trained Prompt T ...

  9. 【NLP】五万字综述!Prompt Tuning:深度解读一种新的微调范式

    作者 | 王嘉宁 整理 | NewBeeNLP https://wjn1996.blog.csdn.net/article/details/120607050 这绝对是我看过最全面细致的Prompt ...

  10. prompt tuning

    Prompt-Tuning--深度解读一种新的微调范式 prompt tuning 整体解读 连续pattern构建论文解读整理 prompt tuning 整体解读 1级:Prompt是一种对任务的 ...

最新文章

  1. 面试被问到Redis实现发布与订阅,手摸手教
  2. 鸿蒙os实锤了吗,鸿蒙OS实锤了?8月9日华为开发者大会一同见证!
  3. 批处理获取exe返回结果
  4. 撰写论文时word使用技巧(转)
  5. 【数位DP】CF 54C,509C,431D,628D,855E,1245F,95D
  6. Standard C++ Episode 7
  7. 离合器预减振超载造成变速箱怠速异响matlab与python仿真分析
  8. 增量更新同步_干货 | Debezium实现Mysql到Elasticsearch高效实时同步
  9. 中小企业成败关键在于老板
  10. Linux按照行数、大小切分文件
  11. 在苹果Mac上找不到文件存储位置怎么办?
  12. 用Navicat连接阿里云数据库RDS
  13. 基于SpringBoot+Vue手表电商销售系统的设计与实现
  14. 实现手机蓝牙解锁电脑_手机版和电脑版微信多开的实现方法
  15. UE4 角色上下车功能
  16. oracle报错3150,oracle数据恢复
  17. MYSQL安装完成后,需要手动安装workbench
  18. Incomplete chess boards 有趣.
  19. 【Java泛型】泛型方法
  20. WebStorm 2018.2.3 x64 的安装与破解

热门文章

  1. 【Cactus仙人掌图】仙人掌基础知识学习笔记
  2. 从360首席科学家到区块链创业者,苦钻代码、强迫自己看白皮书,原来这个圈子都是这么努力的 | 人物志...
  3. Linux gpio 接口
  4. SQL Server 数据查询
  5. 笔记本突然不能连接无线网解决办法
  6. ios开发 服务器通信协议,iOS开发网络篇—HTTP协议
  7. android市场低迷,销量低迷 安卓厂商mini产品或面临策略调整
  8. IPSec IKEv1IKEv2
  9. centos6 yum安装nginx
  10. ShapeContext