论文链接:https://arxiv.org/pdf/2001.07676.pdf
时间:2021年1月
特点:多模板

目录

  • 背景
  • 模型
    • PVP定义
    • 组合PVP
      • P:
      • V:
    • 结构
  • 实验

背景

  • 在小样本场景下传统监督学习效果很差,于是提出了模型PET(Pattern-Exploiting Training)它是一种半监督训练过程,使用自然语言模板将输入的示例重新组织成完形风格的短语。

符号定义:

  • 有标注小样本数据集:T
  • 无标注大型数据集:D
  • 语言模型:M
  • 词表:V
  • 掩码标记:___
  • 分类任务:A
  • 标签:L
  • 输入:短语序列 x = (s1, . . . , sk)

模型

在详细介绍模型之前需要先介绍一个概念 PVP

PVP定义

Pattern-Verbalizer-Pair

  • 定义函数P(pattern):输入x,输出包含掩码标记的句子或短语,使得输出可以被看作是一个完形填空问题。可以理解为“模板构造”。输入x=“Best pizza ever!” P(x)="Best pizza ever! It was___.”
  • 映射V(verbalizer):将PLM预测标签映射为词表中的一个单词。比如预测结果为负向标签0,继续将0映射为单词“bad”,可以理解为“答案映射”的逆过程。

在学习prompt的过程中,最后一步答案映射是将预测词映射为标签词,这里的verbalizer是逆过程,对于两者的区别,我的理解是verbalizer侧重于训练过程,答案映射侧重于预测过程。

通过之前对prompt的学习我们知道,模板构造,答案映射,是prompt-tunning中非常关键的两个环节。对于同一个任务,可以设计不同的模板,也可以设计不同的答案映射器,这会带来不同的效果。因此需要进一步讨论组合PVP的概念。

组合PVP

  • 在缺乏大型数据集的情况下,很难确定哪些PVP表现良好,定义了一组PVP来处理任务。

针对不同的分类任务以及数据集,论文提出了多种建议的PVP组合,下文仅以情感分类任务为例继续介绍。

P:


对于情感分类,论文提出了四种建议的模板。以P3为例,假设输入a=“Best pizza ever”, 构造的模板P3(a)=“Best pizza ever.All in all, it was__”。

V:


标签1映射为单词terrible,标签2映射为单词bad

从上面这个例子也能看出来,PET中模板以及映射都是手工创建的,特殊的是有多个PVP组成PVPs,也就是在综述论文中提到的多模板组合

结构

  • 第(1)步:每一个单独的PLM在小样本数据集T上进行精调。
  • 第(2)步:使用所有PLM的集合对大型无标注数据集D进行软标签标注
  • 第(3)步:在具有软标签的数据集上训练标准分类器C


为了达到更好的效果,进一步提出了iPET,上图中123为PET结构,123abc为iPET结构

  • iPET的核心思想是在不断增大的数据集上迭代训练模型
  • 第(a)步:在第一轮PET模型训练完成之后,随机组合若干个为数据集D打标签,每个类中挑选得分最高的样本合并到小样本数据集中,形成较大的数据集。
  • 第(b)步:在扩大后的数据集上再一次训练PET模型
  • 第(c)步:将这个过程迭代多次

实验

  • 数据集:Yelp Reviews, AG’s News, Yahoo Questions,MNLI ,X-Stance(使用x-stance 来研究PET在其他语言中的效果)
  • 语言模型:英文实验(RoBERTa large),x-stance(XLM-R)
  • 试验任务:情感分类,主题分类,答案匹配,句子匹配

英文数据集精度与方差:

无论小样本数据集为多大,iPET都能达到SOTA。

与baseline的比较:

【论文分享】PET:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference相关推荐

  1. 论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference   随着 ...

  2. 【提示学习】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    论文信息 名称 内容 论文标题 Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inf ...

  3. 文献阅读——Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    附注 这篇文章中在最终提到模型的时候使用了一个 "知识蒸馏" 的点,这点需要注意.如果不懂的话,请参考知识蒸馏基本原理 其实,这里的知识蒸馏主要是在预训练模型的Fine-tunin ...

  4. Exploiting Cloze Questions for Few Shot Text Classification and NaturalLanguage Inference翻译

    Abstract 一些NLP任务可以以完全无监督的方式解决,方法是用自然语言提供预先训练过的带有"任务描述"的语言模型(例如,Radford等人,2019).虽然这种方法的性能不如 ...

  5. 论文解读: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    前言:在自然语言研究领域,某些自然语言处理任务可以利用"预训练模型+任务描述"方式的无监督学习来解决.然而,已有的"预训练模型+任务描述"的无监督学习方法不如有 ...

  6. EMNLP2020 | 近期必读Natural Language Inference精选论文

    **AMiner平台**由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务 ...

  7. 论文笔记翻译——Enhanced LSTM for Natural Language Inference(ESIM)

    文章目录 0.前言 1. 模型结构 1.1 input encoding 1.2 local inference modeling 1.3 inference composition 2. 模型实现 ...

  8. 论文阅读笔记|NNLP: A Primer on Neural Network Models for Natural Language Processing - Yoav Goldberg 2015

    书籍简介 本篇综述可看作神经网络模型应用于自然语言处理的启蒙读物.由于时间跨度较大,文中提到的模型比较古早,但此文包含该领域需要掌握的基础概念,且篇幅不长,通俗易懂,有一定价值,适合初学者阅读.以下是 ...

  9. ACL2021--ChineseBert论文分享

    目录 1.模型结构 1.1 整体结构 1.2 字形embedding 1.3 拼音embedding 1.4 fusion模型 2.训练任务 2.1  预训练准备 2.2  六项训练任务 1.模型结构 ...

最新文章

  1. 【Paper】Learning to Predict Charges for Criminal Cases with Legal Basis
  2. SQL Server Insert 操作效率(堆表 VS 聚集索引表)
  3. 对C#未来的一点感悟
  4. 【Jmeter篇】jmeter+Ant+Jenkins实现自动化测试集成(一)
  5. 重量级 | 重量级!Maven史上最全教程,看了必懂
  6. oracle突然挂了服务全部消失,OracleService服务不见了|OracleServiceXE服务没有了
  7. [JUC-2]AbstractQueuedSynchronizer源码分析
  8. 2017-2018-1 20155322 20155327 实验一 开发环境的熟悉
  9. python贪吃蛇设计思路_Python深度剖析贪吃蛇游戏的设计与实现
  10. Maven实战(高清完整带书签)
  11. php的一些编码问题
  12. 《信息管理学基础》——娄策群(第二版)第一章答案
  13. 将CCT色温转换成RGB
  14. Mathtype启动失败与Microsoft公式编辑器Equation的问题处理案例
  15. php请求传感器数据流通道号,一汽大众发动机数据流与通道号 匹配设定数据
  16. 再谈GPU-Driven Rendering Pipelines
  17. html制作唯品会登陆页面,唯品会网页登陆页面高清,唯品会网页版登陆页面,唯品会网页登陆页面...
  18. 线性代数 行列式(二)
  19. 怎么将录音文件转换成文字呢?
  20. 笨方法学python 习题29-31

热门文章

  1. 模式识别简介贝叶斯决策理论
  2. 房贷计算器(java)
  3. 算法题:1000个苹果和10个箱子
  4. 合同数智化如何助力地产企业实现变革“突围”?
  5. 通过mac查看iphone wifi密码
  6. 笔记本 续航测试软件,续航测试及全文总结_笔记本评测-中关村在线
  7. 精彩文艺汇演,向党献礼
  8. [Cocos2d-X 案例]MoonWarriors战神传说 飞行游戏准备工作(一)
  9. EPSON打印机的维修经验
  10. 计算机专业考研新增院校,计算机技术专业考研院校排名