论文来源:NAACL2022

论文链接:https://arxiv.org/pdf/2109.13532.pdf

代码地址: https://github.com/rtmaww/EntLM/


Abstract

基于提示学习的方法成功应用于句子级的小样本学习任务主要得益于模板和标签词的复杂设计,但是当应用于token级别的标签任务(如NER)时,在所有潜在的实体spans内枚举模板是非常耗时的。针对此问题,本文提出一种更优雅的方法,将NER任务重新表示为语言模型(LM)问题,而不需要任何模板。

        具体而言,此方法摒弃模板构建过程,同时保留预训练模型的词预测范式,在实体位置预测一个类相关的中心词(或标签词)。同时,本文也探索了自动搜索标签词的原则性方法,使预训练模型易于适应。

本文所提方法在避免复杂模板的同时,还缩小了预训练和微调之间的差距,从而更好的提升小样本性能。

Introduction

基于提示学习的小样本分类任务取得成功的两个主要因素:① 重用mask,缩小了预训练和微调之间的差距,因此,即使只有少量训练样本,LM也能很好的适应下游任务;② 复杂的模板和标签词设计有助于LM更好地拟合特定任务的答案分布。

基于模板的提示方法很难适应token级分类(如NER)任务的原因:①   span-level 查询时,随着搜索空间的增大,搜索合适模板困难,而且只有少量标注训练样本的情况下很容易导致过拟合。② 获取每个token的标签需要枚举所有可能的span,这是非常耗时,例如,获取下图输入的所有实体,总共需要21次查询;此外,这种方法的解码时间会随着句子长度的增加而急剧增加,不适合用于文档级NER任务。

Approach

Entity-Oriented LM Fine-tuning

本文提出一种无模板的提示调优方法,面向实体的LM微调以适应于少样本NER。传统的序列标注任务的输出是输入句子中每个字符所对应的实体类型标签,EntLM则是输出的非实体部分同输入字符,实体部分为预设的最能代表该实体类型的字符。如下图(b)所示,输入为“Obama was born in Australia”,“Obama”标签为PER,“Australia”标签为LOC,预设最能代表`PER`类型的字符是`John`,最能代表`LOC`类型的字符是`Australia`,则`was born in`所对应的输出为`was born in`,`Obama `所对应的输出为`John`,`America`所对应的输出为`Australia`。

也就是说,首先构建了一个label words集合把实体label映射到label words,然后根据输入的句子和对应的标签序列构建target sentence,方法是将实体位置的token替换为对应的标签词,并在非实体位置保持原来的单词,然后,softmax计算标签概率。

此时,出现一个新的问题,如何选定一个最能代表每个类中实体类型的字符,即label words。

Label Word Engineering

从少样本数据中生成label words具有很强的随机性,本文通过无标注的文本Wikidata和一个实体词典来选择label word,三种label word的搜索方法:

① Searching with data distribution:从语料库中选择给定类中使用频率最高的单词

② Searching with LM output distribution :使用预训练语言模型选择label word,获取模型在每个实体位置上的预测分布,选择每个实体位置预测TOP K的字符进行频率统计。例如,对`Obama was born in America`进行掩码预测,`America`位置对应的预测TOP3为`America`、`Australia`和`Beijing`,若选择TOP2进行频率统计,则`America`作为`LOC`类型出现的频率加1,`Australia`作为`LOC`类型出现的频率加1。

③ Searching with both data & LM output distribution :同时考虑上述两种方法,即两者频率相乘。

对于冲突的label words,即所选的高频标签词是所有类中潜在高频词,因此设置阈值来移除此类标签词。

Experiments

不同数据集上的综合实验:

不同label word搜索方式对实验结果的影响

解码时间比较:

积累

① Although template-based methods are proved to be useful in sentence-level tasks, for NER task (Cui et al., 2021), such template-based method can be expensive for decoding. Therefore, in this work, we propose a new paradigm of prompt-tuning for NER without templates.

② In this work, we follow the more practical few-shot setting of Gao et al. (2021), which assumes only few samples each class for training. We also adapt previous methods to this setting as competitive baselines.

论文笔记:Template-free Prompt Tuning for Few-shot NER相关推荐

  1. 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

    论文笔记 | 谷歌 Soft Prompt Learning ptuning -> Prefix-Tuning -> soft promt -> p tuning v2 " ...

  2. 【论文笔记】Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in NLP

    摘要 Unlike traditional supervised learning, which trains a model to take in an input x and predict an ...

  3. 【NLP】五万字综述!Prompt Tuning:深度解读一种新的微调范式

    作者 | 王嘉宁 整理 | NewBeeNLP https://wjn1996.blog.csdn.net/article/details/120607050 这绝对是我看过最全面细致的Prompt ...

  4. CPT:刷爆少样本REC任务!清华刘知远团队提出跨模态预训练Prompt Tuning

    关注公众号,发现CV技术之美 本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出 ...

  5. 《CPT COLORFUL PROMPT TUNING FOR PRE-TRAINED》 论文笔记

    文章目录 摘要 1. NTRODUCTION 2 PRELIMINARY 3. CROSS-MODAL P ROMPT TUNING (CPT) 3.1 OVERVIEW 3.2 VISUAL SUB ...

  6. P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks论文笔记

    论文链接:P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks ...

  7. 【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection

    [论文精读]COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection [论文原文]:KiPT: Knowledge- ...

  8. prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural La

    prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Lan ...

  9. Prompt Pre-training:迈向更强大的Parameter-Efficient Prompt Tuning

    ©PaperWeekly 原创 · 作者 | 李国趸 单位 | 浙江大学硕士生 研究方向 | 少样本学习 前言 从 prompt learning 的发展来看,一开始关注的是将任务建模成和预训练相近的 ...

最新文章

  1. 基本数据类型与表达式2 - 零基础入门学习Delphi03
  2. linq之Capacity(转载)
  3. C++ vector 容器浅析
  4. html中两个标签上对齐,css将两个元素水平对齐的方法(兼容IE8)
  5. oo面向对象第一单元总结
  6. Luogu P1197 [JSOI2008]星球大战
  7. Polka.Domain完成40万美元私募轮融资
  8. java 重载赋值_java中构造方法,set/get方法,方法重载使用解读
  9. php+select为空,SELECT时候,如何处理某字段空值?
  10. 【java】打印一个对象即打印出该对象toString()返回值
  11. jumpserver跳板机docker安装小小趟坑
  12. [转]android:clipToPadding和android:clipChildren
  13. 关于码云的一些基本知识_关于使用码云,GITHUB,阿里云CODE来管理代码的一些操作记录...
  14. 禁掉win2003/2008服务 提高系统运行速度
  15. swift 网络----利用URLSession的Data Task下载单张图片(包含图片的增量下载)
  16. 北大青鸟汉字注释机内码_delphi取汉字的机内码、UniCode码
  17. 自己动手编写一个VS插件(一)
  18. gitbook:gitbook-cli\node_modules\npm\node_modules\graceful-fs\polyfills.js
  19. 两个相离圆上各取一点P、Q,求线段PQ中点M的轨迹。
  20. matlab 把图像变成二维的,matlab图像怎么变成二维矩阵

热门文章

  1. T 基础 高数 上:函数
  2. turtle绘制皮卡丘
  3. CentOS Firefox播放视频--安装Flash插件
  4. 弄清楚这个三角关系,工作效率提高50%
  5. linux分区方案探讨
  6. 河北源达靠谱吗?股市如战场,可靠的选股软件很关键
  7. 将mac打造成和linux差不多的c语言开发环境,完全新手版
  8. CAD碎片化学习教程 @4. 按比例放大或缩小图形尺寸
  9. 英语口语练习四十二之12种“安静”的表达
  10. jq输出html 单引号引号转义符,jQuery.parseJSON由于JSON中的单引号转义而引发“无效JSON”错误...