论文解读：It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

PET作者认为之前的PET只能生成single task，本文则将PET拓展为多个token生成；
简要信息：

序号	属性	值
1	模型名称	PET
2	所属领域	自然语言处理；文本分类
3	研究内容	预训练语言模型；Prompt框架
4	核心内容	Prompt-based Fine-tuning
5	GitHub源码	https://github.com/timoschick/pet
6	论文PDF	https://arxiv.org/pdf/2009.07118.pdf

核心要点：

GPT-3由于参数规模大可以基于prompt在few-shot和zero-shot上达到较好效果，本文探索较小规模的语言模型是否也具备此能力；
拓展PET可生成多个token（生成任务）。均为同一作者；
template和verbalizer均为人工构建；

一、动机

传统的预训练语言模型在微调时，通过添加额外的分类器head以适应task-specific任务；
GPT-3提出通过大规模的语言模型可以在诸多下游任务（SuperGLUE）很少的训练数据前提下达到SOTA；但是其依然存在两个缺陷：（i）GPT-3模型太大了，无法在实际场景下使用；（ii）语言模型的输入是有限长度，很难拓展到多个示例；
PET只能预测single token，而不能预测多个token

二、方法：PET

2.1 PVP

PET的PVP（pattern与verbalizer）具体可详见PET原文：《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》或博客：PET。

2.2 PET with multiple masks

PET只能生成一个token，因此应用范围有限。因此本文拓展了PET使得每个输入对应的输出空间都不同，即：

给定一个输入 x x x，其对应的输出候选词记作 Y x Y_x Yx；
定义 P k ( x ) P^k(x) Pk(x) 表示包含 k k k 个[MASK] token的template，定义 l ( x ) = m a x y ∈ Y x ∣ v ( y ) ∣ l(x) = max_{y\in Y_x |v(y)|} l(x)=maxy∈Yx∣v(y)∣ 表示所有能够描述输出的词的最大个数；

2.3 Inference

假设有 k k k 个mask，则可以定义生成：

2.4 Training

采用并行的方式生成：

训练目标则采用hingle loss，以最大化ground truth与其他结果的差距：

2.5 Task设计

在SuperGLUE上进行测试，每个Task设计相应的PVP：
1、BoolQ
给定一个Passage和Query，答案则为yes或no：
pattern：

verbalizer： yes/no

2、CB/RTE
自然语言推理任务（textual entailment）
pattern：

verbalizer： entailment->yes，disagreement->no，neutral->maybe

3、COPA
给定一个premise p以及两个候选，判断是cause还是effect
pattern：

verbalizer： 对应c1和c2

4、WiC
给定一个词w和两个句子，任务判断w是否在两个句子中使用场景一样
pattern：

verbalizer： yes/no

5、WSC
给定一个代词和名词以及一个句子，判断代词和名词是否对应

需要生成多个词

6、MultiRC
给定一个passage和question，以及候选答案a，判断a是否答案
pattern：

verbalizer： yes/no

7、ReCoRD
给定一个pasasge和含有mask的question，该任务即为完形填空