论文解读:It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

  PET作者认为之前的PET只能生成single task,本文则将PET拓展为多个token生成;
简要信息:

序号 属性
1 模型名称 PET
2 所属领域 自然语言处理;文本分类
3 研究内容 预训练语言模型;Prompt框架
4 核心内容 Prompt-based Fine-tuning
5 GitHub源码 https://github.com/timoschick/pet
6 论文PDF https://arxiv.org/pdf/2009.07118.pdf

核心要点:

  • GPT-3由于参数规模大可以基于prompt在few-shot和zero-shot上达到较好效果,本文探索较小规模的语言模型是否也具备此能力;
  • 拓展PET可生成多个token(生成任务)。均为同一作者;
  • template和verbalizer均为人工构建;

一、动机

  • 传统的预训练语言模型在微调时,通过添加额外的分类器head以适应task-specific任务;
  • GPT-3提出通过大规模的语言模型可以在诸多下游任务(SuperGLUE)很少的训练数据前提下达到SOTA;但是其依然存在两个缺陷:(i)GPT-3模型太大了,无法在实际场景下使用;(ii)语言模型的输入是有限长度,很难拓展到多个示例;
  • PET只能预测single token,而不能预测多个token

二、方法:PET

2.1 PVP

  PET的PVP(pattern与verbalizer)具体可详见PET原文:《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》 或博客:PET。

2.2 PET with multiple masks

  PET只能生成一个token,因此应用范围有限。因此本文拓展了PET使得每个输入对应的输出空间都不同,即:

  • 给定一个输入 x x x,其对应的输出候选词记作 Y x Y_x Yx​;
  • 定义 P k ( x ) P^k(x) Pk(x) 表示包含 k k k 个[MASK] token的template,定义 l ( x ) = m a x y ∈ Y x ∣ v ( y ) ∣ l(x) = max_{y\in Y_x |v(y)|} l(x)=maxy∈Yx​∣v(y)∣​ 表示所有能够描述输出的词的最大个数;

2.3 Inference

  假设有 k k k 个mask,则可以定义生成:

2.4 Training

  采用并行的方式生成:

  训练目标则采用hingle loss,以最大化ground truth与其他结果的差距:

2.5 Task设计

  在SuperGLUE上进行测试,每个Task设计相应的PVP:
1、BoolQ
给定一个Passage和Query,答案则为yes或no:
pattern:

verbalizer: yes/no

2、CB/RTE
自然语言推理任务(textual entailment)
pattern:

verbalizer: entailment->yes,disagreement->no,neutral->maybe

3、COPA
给定一个premise p以及两个候选,判断是cause还是effect
pattern:

verbalizer: 对应c1和c2

4、WiC
给定一个词w和两个句子,任务判断w是否在两个句子中使用场景一样
pattern:

verbalizer:
yes/no

5、WSC
给定一个代词和名词以及一个句子,判断代词和名词是否对应

需要生成多个词

6、MultiRC
给定一个passage和question,以及候选答案a,判断a是否答案
pattern:

verbalizer: yes/no

7、ReCoRD
给定一个pasasge和含有mask的question,该任务即为完形填空

论文解读:It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners相关推荐

  1. 【论文解读】Do Prompts Solve NLP Tasks Using Natural Language?

  2. NLP论文解读:无需模板且高效的语言微调模型(下)

    ©原创作者 | 苏菲 论文题目: Prompt-free and Efficient Language Model Fine-Tuning 论文作者: Rabeeh Karimi Mahabadi 论 ...

  3. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  4. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  5. Unet论文解读代码解读

    论文地址:http://www.arxiv.org/pdf/1505.04597.pdf 论文解读 网络 架构: a.U-net建立在FCN的网络架构上,作者修改并扩大了这个网络框架,使其能够使用很少 ...

  6. Paper:《A Unified Approach to Interpreting Model Predictions—解释模型预测的统一方法》论文解读与翻译

    Paper:<A Unified Approach to Interpreting Model  Predictions-解释模型预测的统一方法>论文解读与翻译 导读:2017年11月25 ...

  7. ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. 论文解读丨空洞卷积框架搜索

    摘要:在通用目标检测算法,空洞卷积能有效地提升网络的感受野,进而提升算法的性能.本次解读的文章提出了一种空洞卷积变体及对应的空洞卷积搜索方法,充分探索空洞卷积的潜力,进一步提升网络模型的性能. 本文分 ...

  9. FPN论文解读(附网络结构层次代码)

    这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,解决了多尺度目标的检测问题. # 论文题目 FeaturePyramidNetworksforObjectDetection ...

最新文章

  1. The Six Best Practices(4~6)
  2. python代码自动格式化_代码的自动格式化
  3. 拼多多4.5元手表使用功能图
  4. jpa 实体图查询_JPA实体图
  5. matlab graphic,Matlab图形系统,Matlab Graphic System,音标,读音,翻译,英文例句,英语词典...
  6. 大数据面试题总结(附答案)
  7. mysql的limit_MYSQL中LIMIT用法
  8. 2021-2025年中国定时控制器行业市场供需与战略研究报告
  9. 字母串按照字典序排序
  10. 硬盘检测神器-HD Tune Pro/Hard Disk Sentinel
  11. 慕课版软件质量保证与测试(第五章.课后作业)
  12. 【转载】蜗牛星际矿渣黑群晖安装折腾路以及指引
  13. [ delphi ] AES-256-ECB 加密、解密算法控件说明
  14. 5分钟使用Unity制作AR应用,结合EasyAR制作AR(转)
  15. C++ Tetris俄罗斯方块
  16. Vue实战篇一: 使用Vue搭建注册登录界面
  17. C语言循环语句的研究意义,C语言中循环语句的应用研究
  18. DELLR740带外镜像安装系统
  19. 《计算机网络(第七版)-谢希仁》重点知识 - 数据链路层
  20. 【高老师软件需求分析】20级云班课习题答案合集

热门文章

  1. Buffalo LS-QVL安装+配置信息
  2. C# 实现点击登录按钮跳转界面
  3. 【架构设计】酒店预订应用程序的系统设计架构(如 Airbnb、OYO)
  4. 教你一次性查询每家快递单号物流
  5. SpringBoot实战教程:SpringBoot企业级线上商城项目讲解
  6. PS笔记:获取图片像素坐标
  7. wxWidgets编程指南
  8. IntersectionObserver(交叉观察器)
  9. 图深度学习--图论基础
  10. 小米4刷魅族系统后无服务器,小米4刷魅族Flyme简评