Visual Prompt Tuning (VPT)
Abstract
只在输入空间中引入少量(小于1%的模型参数)可训练参数,同时保持模型主干不变。
在许多情况下,VPT甚至超越了模型容量和训练数据规模的全面微调,同时降低了每个任务的存储成本。
Introduction
常用技术:full fine-tuning,这种策略要求为每一个任务存储和部署一个独立的骨干参数副本。这是一个昂贵且通常不可行的命题,特别是对于现代的基于Transformer的体系结构
(a) 三种传统微调方法:Full fine-tuning, Head-oriented, and Backbone-oriented approaches
(b) VPT: 我们不是修改或微调预先训练的Transformer本身,而是修改对Transformer的输入
我们的方法只在输入空间中引入少量任务特定的可学习参数,而在下游训练时冻结整个预训练的Transformer骨干。在实践中,这些额外的参数只是预先添加到每个Transformer层的输入序列中,并在微调期间与线性头一起学习。
Related work
Adapters [64] and BitFit [5].
适配器[34]在每个Transformer层中插入额外的轻量级模块。一个适配器模块通常由一个线性向下投影、一个非线性激活函数和一个线性向上投影以及一个剩余连接组成[63,64]。[8]没有插入新的模块,而是在对ConvNets进行微调时,提出更新偏置项并冻结其余的骨干参数。BitFit[3]将该技术应用于变压器,并验证了其在LM调谐上的有效性。我们的研究表明,相对于前面提到的NLP中的两种完善的方法,VPT在适应Transformer模型的视觉任务方面提供了更好的性能。
prompt
treat the prompts as task-specific continuous vectors and directly optimize them via gradients during fine-tuning(最近的研究提出将提示符作为任务特定的连续向量,并在微调过程中通过梯度直接对其进行优化,即Prompt Tuning)
与完全微调相比,它获得了类似的性能,但使用了1000×less参数存储。
方法
VPT-Deep变体为Transformer编码器每层的输入预先设置一组可学习的参数;
VPT-Shallow变体则仅将提示参数插入第一层的输入。
两者在下游任务的训练过程中,只有特定于任务的提示和线性头的参数会更新,而整个Transformer编码器被冻结。
方法:在原有VIT的基础上增加可学习的token参数P0P_0P0,这部分的参数需要梯度,其余部分全部冻结
给定一个预训练的Transformer模型,我们在Embed层之后的输入空间中引入一组p个维数为d的连续嵌入,即提示符。在微调期间,只有特定于任务的提示被更新,而Transformer主干被冻结。
结论
作者提出了一种新的参数有效的方法,将大规模视觉Transformer模型广泛应用到下游任务,即VPT。它超越了其他的微调方法。
Visual Prompt Tuning (VPT)相关推荐
- 多模态Prompt Tuning,你到底行不行?
作者丨霜清老人@知乎 编辑丨极市平台 https://zhuanlan.zhihu.com/p/550544232 一次关于将prompt tuning应用到生成式多模态预训练模型的尝试. 最近两个月 ...
- Visual Prompt
始于NLP 简单来讲,Prompt就是对原来的输入文本进行一定的处理,使得在不改变预训练模型参数的情况下,相应任务的性能变高.例如,原输入文本为:I received the offer from E ...
- CPT:刷爆少样本REC任务!清华刘知远团队提出跨模态预训练Prompt Tuning
关注公众号,发现CV技术之美 本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出 ...
- 《CPT COLORFUL PROMPT TUNING FOR PRE-TRAINED》 论文笔记
文章目录 摘要 1. NTRODUCTION 2 PRELIMINARY 3. CROSS-MODAL P ROMPT TUNING (CPT) 3.1 OVERVIEW 3.2 VISUAL SUB ...
- 直播活动丨BMMeetup第1期:大模型Prompt Tuning技术,8场学术报告和Poster提前下载...
「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...
- 线下活动丨Big Model Meetup 第1期:大模型Prompt Tuning技术,8场学术报告和Poster展示...
「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...
- 清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索
©作者 | 曾伟豪 学校 | 北京邮电大学 研究方向 | 对话摘要生成 论文标题: Exploring Low-dimensional Intrinsic Task Subspace via Prom ...
- 清华刘知远团队巨作!Pre-trained Prompt Tuning框架,让超大模型调参变简单
点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 机器之心报道 来自清华大学的刘知远.黄民烈等研究者提出了一个名为「PPT」的新框架.PPT=Pre-trained Prompt T ...
- 【NLP】五万字综述!Prompt Tuning:深度解读一种新的微调范式
作者 | 王嘉宁 整理 | NewBeeNLP https://wjn1996.blog.csdn.net/article/details/120607050 这绝对是我看过最全面细致的Prompt ...
- prompt tuning
Prompt-Tuning--深度解读一种新的微调范式 prompt tuning 整体解读 连续pattern构建论文解读整理 prompt tuning 整体解读 1级:Prompt是一种对任务的 ...
最新文章
- 面试被问到Redis实现发布与订阅,手摸手教
- 鸿蒙os实锤了吗,鸿蒙OS实锤了?8月9日华为开发者大会一同见证!
- 批处理获取exe返回结果
- 撰写论文时word使用技巧(转)
- 【数位DP】CF 54C,509C,431D,628D,855E,1245F,95D
- Standard C++ Episode 7
- 离合器预减振超载造成变速箱怠速异响matlab与python仿真分析
- 增量更新同步_干货 | Debezium实现Mysql到Elasticsearch高效实时同步
- 中小企业成败关键在于老板
- Linux按照行数、大小切分文件
- 在苹果Mac上找不到文件存储位置怎么办?
- 用Navicat连接阿里云数据库RDS
- 基于SpringBoot+Vue手表电商销售系统的设计与实现
- 实现手机蓝牙解锁电脑_手机版和电脑版微信多开的实现方法
- UE4 角色上下车功能
- oracle报错3150,oracle数据恢复
- MYSQL安装完成后,需要手动安装workbench
- Incomplete chess boards 有趣.
- 【Java泛型】泛型方法
- WebStorm 2018.2.3 x64 的安装与破解