P-tuning v1 v2

### GPT Understands, Too (P-tuning)
根据训练目标，预训练语言模型能够划分为三种类型：
1. 单向语言模型：GPT，用于自然语言生成任务
2. 双向语言模型：BERT，用于自然语言理解任务
3. 混合语言模型：UniLM，是上述两种方法的结合

在以前，研究者们认为GPT类型的模型在自然语言理解任务上表现不好。随着GPT-3的出现，这个看法被打破了。只要设计出合适的prompt，单向语言模型也能够在自然语言理解任务上有出色表现。
但prompt的设计并不容易，往往一个单词的改变就会使最终结果产生巨大改变，例如下面这个表格。

这篇文章的目的就是设计一个自动的生成连续prompt的方法，来提升模型的效果，本文将该方法称为P-tuning。P-tuning仅仅修改了模型的输入部分，采用了一种连续的表征来代替人工设计的离散prompt。
假设一个人工设计的离散模版用下面的公式表示：

其中p代表模版token，x代表数据的原始输入，y代表数据的标签；那么P-tuning的模版可以用下面的公式表示：

其中h代表P-tuning的连续prompt表征，e代表一个预训练的语言模型，x代表数据的原始输入，y代表数据的标签。在面对下游任务时，通过优化h来进行模型优化：

连续prompt在设计时如果是随机初始化的话，优化器很容易陷入局部最优，另外，可以很容易想到的是，连续的prompt embedding之间应该不是相互独立的，而应该是含有依赖关系的。因此作者在这里设计了一个双向LSTM模型来生成prompt embedding。

该图显示了在LAMA-34k的效果，其中MP代表手动设计的prompt。

该图显示了在LAMA-29k上的实验效果，可以看到和MP对比的话，P-tuning的效果有明显提升，和FT对比的话，效果也不错。

该表格显示了：
1. 基于bert-base模型，在5/7的数据集上，P-tuning的效果比finetune等更好。
2. 基于gpt模型，在全部的数据集上，P-tuning的效果都比finetune等更好。
3. 对比gpt-base和bert-base，在6/7的数据集上，基于P-tuning，gpt-base的效果都更好。
4. 这个实验颠覆了我们以前的认知：即在自然语言理解任务上，双向模型比单向模型更好。

下图是关于few-shot的实验：

### P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
提出P-Tuning v2的原因：
1. 先前的工作显示，Prompt tuning在normal-sized的预训练模型上效果一般；
2. 现有的Prompt tuning方法在较难的文本序列问题上效果不好；

P-Tuning v2的思路来源：
基于prefix-tuning设计的优化版本 (Li and Liang, 2021)

具体介绍：
在P-Tuning中，continuous prompt被插入到输入序列的embedding里，除了语言模型的第一层之外，其他层的prompt embddding都来自于上一层。这样的设计存在两个问题：
1. 约束了要优化的参数量。由于模型的input text的长度是一定的，一般是512，那么prompt的长度就不能过于长。
2. 当模型层数很深时，tuning时模型的稳定性难以保证；模型层数越深，在第一层输入的prompt对后面的影响是难以预估的，这会影响模型的稳定性。
P-Tuning v2的改进在于，将只在第一层插入continuous prompt修改为在许多层都插入continuous prompt，层与层之间的continuous prompt是相互独立的。这样一来，在模型tuning时，可训练的参数就增多了，从0.01%增加到了0.1%-3%。

除了这个在模型结构上的重大修改之外，还有一些优化手段。
1. Reparameterization：之前的方法（例如P-Tuning/prefix-tuning）为了增强模型鲁棒性，提升训练速度和模型表现，针对continuous prompt设计了LSTM/MLP等Reparameterization的方法。但是在实践中，作者发现这些设计并不一定有效。
2. Prompt length：在不同的任务上的表现和prompt的长度有关系。
3. Multi-task learning：多任务学习能够很大的提升模型表现。
实验对比：

这个实验显示，在复杂任务（例如RTE, BoolQ，CB）上，可以看到PT的效果相比于FT要差的多。而P-Tuning v2的差别则没那么大，甚至更好。表格的后两行是在超大模型上的表现的对比，可以看到PT和FT的效果逐步接近了。这个实验证明了该论文在一开始提出的观点。

这个实验在对比了在一些偏难的任务上的模型效果。
消融实验：

这个实验将Prompt depth作为变量进行了实验，在左图上发现，在模型的5-24层添加prompt能够达到和所有层都添加prompt一致的效果。另外，在深层添加prompt的效果总是好于在浅层添加。

这个实验是关于Embedding v.s. MLP reparameterization，以及Prompt Length的消融实验。对于简单的NLU任务，较短的提示足以获得最佳性能;对于较难的序列任务，通常，超过 100 的提示会有所帮助。

p-tuning代码实现的理解：https://zhuanlan.zhihu.com/p/459305102

P-tuning v1 v2相关推荐

IGMP V1 V2 V3 定义和区别
先来认识一下IGMP这个协议吧,它的全称是Internet Group Management Protocol,它和unicast和multicast的区别是它是发往一组计算机(属于它这个组播组的所有 ...
PyTorch 实现经典模型7：YOLO (v1, v2, v3, v4)
YOLO (v1, v2, v3, v4) 网络结构 YOLO v3 网络结构代码 Ref <机器爱学习>YOLO v1深入理解 <机器爱学习>YOLOv2 / YOLO90 ...
Android Studio 打包 V1 V2 签名
前言以前AS打包都是填完key信息就ok了,AS后面更新之后,打包的签名版本多了V1,V2选择,该如何选择呢? v1与v2的区别 Android 7.0中引入了APK Signature Schem ...
使用自己的数据集训练GoogLenet InceptionNet V1 V2 V3模型（TensorFlow）
使用自己的数据集训练GoogLenet InceptionNet V1 V2 V3模型(TensorFlow) [尊重原创,转载请注明出处]https://blog.csdn.net/guyueali ...
经典卷积神经系列（Inception v1\v2\v3\v4、ResNet、ResNext、DenseNet、SENet）
写在前面:此文只记录了下本人感觉需要注意的地方,不全且不一定准确.详细内容可以参考文中帖的链接,比较好!!! 经典的CNN:Inception v1\v2\v3\v4.Resnet.Resnext.D ...
split(v1,v2)用于把一个字符串分割成字符串数组
split(v1,v2) 参数: v1 必填,此为字符串或正则表达式,从该参数指定的地方开始分割 v2 可选.该参数可指定返回的数组的最大长度.如果设置了该参数,返回的子串不会多于这个参数指定 ...
维数定理（手推！）：证明dim(v1)+dim(v2) = dim(v1+v2) + dim(v1∩v2)
网上看了很多相关的推导,基本大同小异,相关链接(https://www.cnblogs.com/wdfrog/p/8258417.html) 弄的模棱两可,这里自己手推一下,希望能弄的明白一点,在张凯 ...
一篇文章看明白 Android v1 v2 签名机制
Android - v1 & v2 签名机制相关系列一篇文章看明白 Android 系统启动时都干了什么一篇文章了解相见恨晚的 Android Binder 进程间通讯机制一篇文章看明 ...
FATE学习：配置文件解析及V1/V2版本对比
综述为了让任务模型的构建更加灵活,目前 FATE 使用了一套自定的领域特定语言 (DSL) 来描述任务. 在 DSL 中,各种模块(例如数据读写 data_io,特征工程 feature-engin ...
android打包v1和v2,关于Android Studio 打包 V1 V2 签名的选择问题
前言以前as打包都是填完key信息就ok了,as后面更新之后,打包的签名版本多了v1,v2选择,该如何选择呢? v1与v2的区别 android 7.0中引入了apk signature schem ...

P-tuning v1 v2

P-tuning v1 v2相关推荐

最新文章

热门文章