清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索
©作者 | 曾伟豪
学校 | 北京邮电大学
研究方向 | 对话摘要生成
论文标题:
Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning
论文链接:
https://arxiv.org/abs/2110.07867
作者提出了大家都非常关心的问题:预训练模型是如何通过任务无关的预训练目标(比如 BERT 的 MLM, NSP; PEGASUS 的 GSG)来学到知识,并且能使用少量的数据就能将预训练模型运用到下游差异巨大的任务中(fine-tuning; prompt-tuning)。
在论文中,作者提出了假设:将预训练模型迁移到各种下游任务的优化问题可以重参数化为在同一低维参数子空间中只优化少数几个自由参数的问题,作者称之为 intrinsic task subspace. (本征子空间)如下图所示:
注:Intrinsic dimension(ID)指的是用来表示数据或者近似函数所需要的最小的变量的数目。之前有工作直接将 PLM 的参数投影到线性子空间上,然后发现许多的 NLP 任务的 Intrinsic dimension 可以低于万维,这也启发了作者的工作)
如果上述假设成立,那么 task-specific optimization subspaces 的存在可以解释 PLMs 的通用性,同时本征子空间的低维度的特性可以解释 adaptations(fine-tuing; prompt-tuning)可以在相对小规模数据集上训练。从这个观点来看,PLMs 可以看成通用的 compressive frameworks,可以将不同任务的学习复杂度从高维降到低维。
为了证明上述假设,就需要找出 PLMs 的本征子空间(intrinsic task subspaces)。在论文中,作者通过 Prompt Tuning 来寻找公共 intrinsic subspace。因为直接让所有的 PLMs 的参数直接降维在计算上是困难的,并且 Prompt Tuning 在结构上不复杂,方便降维。
作者将论文中采用的方法称之为 intrinsic prompt tuning(IPT),IPT 主要包括两个阶段:multi-task subspace finding(MSF)和 intrinsic subspace tuning (IST)。在 MSF 的阶段,我们获得多任务下的经过优化的 soft prompts,然后训练一个自动编码器将这些 soft prompt 投影到低维的子空间上,最后将这些低维子空间上反向投影,重建成新的 prompt。这样经过优化的自动编码器就可以定义目标的本征子空间。在 IST 阶段,对于之前陌生的任务和数据,只需要调节在 MSF 阶段找到的低维子空间上的参数然后通过逆投影就可解决问题。
作者在实验上发现这个本征子空间不仅存在,而且维度非常低。在由 100 个随机任务上利用 MSF 得到的 5 维的本征子空间上,利用 IST 的方法可以对那些 100 个已经见过的任务(但是不同的数据)达到 prompt tuning 87% 的效果。对于 20 个没见过的任务,能达到 prompt tuning 65% 的效果。同时作者也表示通过 MSF 找到的本征子空间和 IPT 具有使用价值,比如可以用来分析 nlp 任务上的区别以及提升模型的稳定性。
Methodology
1.1 Preliminaries
对于给定的一系列 NLP 任务, , 其中既包括了 NLU 任务,又包括了 NLG 任务。但不失一般性,可以将任务定义为 , 其中 , ,目标就是习得映射函数: 。
1.2 Intrinsic Prompt Tuning
1.2.1 Multi-task Subspace Finding
在 MSF 的阶段,对于每一个下游任务 ,都会得到得到一个训练好的 soft prompts 。会使用 auto-encoder 将 投影到 维上,再逆投影回原来的维度得到重建后的 prompt 。
其中 ,是用来投影到低维度的网络,是一层 FNN, 则是两层的感知机用来做逆投影:
同时还引入重建的 Prompt 在对应任务上的损失 。得到 MSF 阶段的训练目标:
其中 是控制两种 loss 比率的超参, 表示 和 的参数。
1.2.2 Intrinsic Subspace Tuning
在这个阶段,作者希望验证在 MSF 阶段找到的子空间的有效性。具体而言,保持在 MSF 阶段参数 以及预训练模型参数固定,对每一个任务,仅仅是调节本征子空间上 个自由参数,然后通过 逆投影成 soft prompts,目标函数如下:
Experiment and Analysis
2.1 Experimental Settings
2.1.1 任务和数据集
从 Cross Fit Gym 随机抽取的 120 个 few-shot NLP 任务,既包含 NLU 又包括 NLG。每个任务 可以表示为 () 。
2.1.2 Evaluation Metrics
定义了两个指标 :
其中 表示在任务 上 IPT 的结果对应的测试分数。 则表示在 prompt tuning()的表现或者在 fine tuning 上的表现( )。
在论文中,作者使用 作为主要评价指标, 作为辅助评价指标。
3.1.3 任务设置
将 120 个 NLP 任务划分成训练任务集 ,测试任务集 ,满足 。
在 MSF 的阶段,模型在 上训练,然后在 上测试 和 的结果。用来测试重建的 prompts 效果,这也为模型在 unseen data 和 tasks 上的表现提供一个经验性的上界。在 上测试了 soft prompts 重建的结果,用来探究 auto-encoder 对于未见过的 prompts 的重建能力。
在 IST 阶段,在 上使用 IST 来探究在子空间上的优化的表现。为了检验 IPT 的泛化能力,设计了两种任务:
1. unseen-data challenge. 在 上使用重新采样的 K-shot 来进行 IST 的过程。
2. unseen-task challenge. 在 上检验由 IPT 获得的 soft prompts 的效果。检验 IPT 在 unseen-task 上的效果,以此来证明不同 NLP 任务对应的子空间是不相互独立的。
2.2 Main Result
2.2.1 Q1 PLMs是否真的将few-shot设置下多样的NLP任务重参数化为低维子空间任务?
Figure 3(a)显示,在 unseen-data challenge 上,使用 的 IST 能够恢复完整的 prompt tuning 的效果的 80%;在 unseen-task challenge 上,只需调节本征子空间上的 5-100个 参数就可以达到 prompt tuning 的 60% 的效果。作者认为这为他们的猜想也就是 PLMs 将多样的 NLP 任务重参数化为低维子空间任务提供了证据。或者至少证明了这些任务被重参数化为低维子空间后存在交集,否则由 得到的子空间几乎不可能对 有效。
2.2.2 Q2 什么限制了IPT?
1. 在 MSF 阶段,重建 soft prompts 的效果甚至要优于原始的 prompt tunning。说明(1)MSF 可以通过促进在低维度上的多任务技能的分享来提升 prompt tuning 的表现。(2)在本征子空间上至少存在较优的解,能被 MSF 找到。但是即使是同样的训练数据 IST 也不能找到这些 good solutions, 因此 与 之间存在差距,说明采取的优化算法限制了 IST 的表现。
2. 与 存在差距,说明直接在未知任务上进行 soft prompts 的重构表现不佳。说明 MSF 的重构能力限制了它的泛化性。
3. IPT相对 fine-tuning 的表现要逊于相对于在 prompt-tunning 下的表现。是因为 prompt-tuning 在 few-shot 场景下要比 fine-tuning 弱,启发设计更有效的 prompt-tuning 算法。
2.2.3 Q3 任务类型的影响
Figure3 (c)-(f)表示
1. 分类任务和非分类任务存在较大的差异。
2. 当提升 时,non-cls 任务的表现会下降,cls 任务的表现会上升。这表明 non-cls 任务的本征子空间的维度可能远小于 cls 任务。
2.3 Analyses and Properties
2.3.1 Visualization of the Found Intrinsic Subspace
将本征子空间的向量利用 PCA 进行降维
1. 分类任务和非分类任务之间较大的差异,这也解释了之前的问题。
2. 和 对应的向量在空间上是混合的,说明被找到的子空间对于未知的任务具有一定的泛化能力。
3. 从(C)和(D)中还可以观察到,属于同一类别的点表现为紧密的簇。说明学习到的 intrinsic 向量可以作为任务的低维表示,可以用来分析多种 NLP 任务之间的异同。
2.3.2 Impacts of the Number of Training Tasks
随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。
2.3.3 Impacts of the Number of Shots
随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。
2.3.4 Improving Prompt Tuning Stability
Prompt 是最不稳定的策略,会影响到 Prompt tuning 的使用,IPT 可以帮助 Prompt tuning 更稳定。可以用 IPT 的结果去初始化 Prompt Tuning。
Conclusion
作者并没有直接得出在 PLMs 上的不同 NLP 任务可以重参数化为在相同子空间上的优化。但找到了一个可信的结果:不同任务被重参数化在低维子空间上后存在交集,并且能被 MSF 找到。作者希望未来的工作能不能设计更好的框架去证明这个本征子空间的存在,使 IPT 具有更好的泛化性能。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索相关推荐
- 清华大学刘知远组:文本分类任务中,将知识融入Prompt-tuning过程
©作者 | 刘兴贤 学校 | 北京邮电大学硕士生 研究方向 | 自然语言处理 前两天看到刘知远老师组在 arxiv 上放出来了 Prompt-tuning 相关的新工作,这篇文章是将外部知识融入 Pr ...
- 清华刘知远团队巨作!Pre-trained Prompt Tuning框架,让超大模型调参变简单
点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 机器之心报道 来自清华大学的刘知远.黄民烈等研究者提出了一个名为「PPT」的新框架.PPT=Pre-trained Prompt T ...
- CPT:刷爆少样本REC任务!清华刘知远团队提出跨模态预训练Prompt Tuning
关注公众号,发现CV技术之美 本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出 ...
- 【自然语言处理】【数据增强】PromDA:应用于低资源NLU任务的、基于prompt的数据增强方法
PromDA:应用于低资源NLU任务的.基于Prompt的数据增强方法 原始论文地址:2202.12499] PromDA: Prompt-based Data Augmentation for Lo ...
- 直播活动丨BMMeetup第1期:大模型Prompt Tuning技术,8场学术报告和Poster提前下载...
「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...
- 线下活动丨Big Model Meetup 第1期:大模型Prompt Tuning技术,8场学术报告和Poster展示...
「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...
- 【NLP】五万字综述!Prompt Tuning:深度解读一种新的微调范式
作者 | 王嘉宁 整理 | NewBeeNLP https://wjn1996.blog.csdn.net/article/details/120607050 这绝对是我看过最全面细致的Prompt ...
- 《CPT COLORFUL PROMPT TUNING FOR PRE-TRAINED》 论文笔记
文章目录 摘要 1. NTRODUCTION 2 PRELIMINARY 3. CROSS-MODAL P ROMPT TUNING (CPT) 3.1 OVERVIEW 3.2 VISUAL SUB ...
- 清华大学刘知远:知识指导的自然语言处理
⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! "语言是一块琥珀,许多珍贵和绝妙的思想一直安全地保存在里面."从人类诞生伊始,自然语言就承载着世世代代的智慧 ...
最新文章
- springboot基于全局异常处理的简单日志打印
- java feign同时传对象和其他参数_关于Spirng Cloud的Feign传参问题:
- 蚂蚁从飞机上掉下来的数学建模分析
- 烂泥:为KVM虚拟机添加网卡
- mysql导入数据库某张表_MSSQLServer2005 导出导入数据库中某张表的数据
- facebook 面试_我在Facebook接受了应届毕业生的面试。 这是我从设计中学到的东西。...
- union和union all区别
- Android--Activity中使用Intent传值
- java编译前端_compiler Java实现的编译器前端(一直到中间代码生成)其中使用了JFLEX及CUP做Lex program /解释器 238万源代码下载- www.pudn.com...
- RS485接线 | Modbus智能LED三色声光报警器 机房警示灯带蜂鸣器
- python 输入一个整数,将该整数逆向输出
- 基于javaee的社区医院远程挂号系统
- Android 传感器分类
- 中国古代经典励志名言100句,百读不厌,陪孩子一起读经典!
- 【计算机网络】频带和频段(图解易懂)
- python晋江爬虫_python爬虫之小说爬取
- 平板电脑性能测试软件,平板电脑跑分排行榜 最值得入手的都在这里
- WDM音频驱动程序概览
- 2.2吴恩达深度学习笔记之优化算法
- 标题:Mythroad平台自述----老虎会游泳(精啊!!)-阅(120)
热门文章
- Android NDK 学习汇总
- 关掉ajax 的异步,asp.net ajax 取消异步回送
- Java基础(三十四)String、StringBuffer类和数据缓冲区Buffer类
- NYOJ 737---石子归并(GarsiaWachs算法)
- '$.browser.msie' 为空或不是对象
- 46. Permutations (Back-Track,Sort)
- Python 学习笔记10
- 快速构建Windows 8风格应用13-SearchContract构建
- mysql中xml类型_使用 SQLXML 数据类型
- c语言里的%p的作用,C语言中geiwei=m%10什么意思,求解!