论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

本文作者 | 陈想（浙江大学）、张宁豫（浙江大学）、谢辛（陈想）、邓淑敏（浙江大学）姚云志（浙江大学）、谭传奇（阿里巴巴），黄非（阿里巴巴），司罗（阿里巴巴），陈华钧（浙江大学）

接收会议 | WWW2022

论文链接 | https://arxiv.org/abs/2104.07650

代码 | https://github.com/zjunlp/KnowPrompt

一、引言

最近一年以来蓬勃发展的自然语言处理新范式“提示学习”(Prompt Learning)，通过构造提示模板和标签映射，显著提升了模型的少样本、跨领域、多任务等能力。在提示学习中，如何针对具体任务，构建出最合适的模板提示和标签映射组合，是提升任务性能的关键。因此，通过植入相关的任务和领域知识来构建提示模板，以“知识提示”指导预训练语言模型，可以提升模型对任务和领域的感知，充分的激发预训练语言模型的潜力，提升任务性能。本文梳理了有关“知识提示”的学习方法，并介绍了被TheWebConf(WWW)2022录用的新工作：KnowPrompt。

二、背景知识

2.1 自然语言处理的“第四范式”：提示学习

早年的自然语言处理方法严重依赖特征工程、特征工程，通过精心设计数据特征和网络架构来实现下游任务。近几年随着语言模型如GPT、BERT、BART的出现，“预训练”+“微调”成为了自然语言处理的标准范式，并以统一的模型架构显著提升了大量任务的性能。然而，在预训练和微调的过程中，不同阶段的优化目标不一致。于是，起源于GPT3，并由PET[1,2]、LM-BFF[3]发展而来的一种全新的范式----“提示学习”[4]，引起了学者的广泛关注。通过构造提示模板和标签映射，“提示学习”可以统一预训练和微调的优化目标，并实现轻量、高效的下游任务微调，从而更好的完成任务。

随着技术的不断发展，新的提示学习方法不断涌现，不同团队在同一时期提出了大量了新思路、新方法。清华大学提出了可自动学习模板的P-tuning[5]和预训练提示方法PPT[6],以解决需要人工构建模板和最优初始化等问题；斯坦福大学提出了Prefix-tuning[7]以参数可学习的前缀来实现高效的预训练语言模型微调;谷歌提出了FLAN[8]通过自然语言指令微调实现更快、更小、更好的模型优化；Huggingface提出了T0[9]以更加多样化的提示和多任务学习使模型具备更加鲁棒、泛化的能力；浙江大学和阿里巴巴达摩院提出了可同时学习模板和标签映射的DART[10]以实现全流程端到端微调降低模板提示构建成本。更多的工作开始尝试将提示学习应用在如实体识别与分类[11,12,13,14]、关系抽取[15]、自然语言生成[16]、事件抽取[17,18,19]、情感分析[20,21]、语义解析[22]、视觉定位[23]、图像生成[24]、多模态问答[25,26]等任务。相关工作可以参见https://github.com/thunlp/PromptPapers以及CCF关于提示学习的术语解读[27]。

从本质上讲，提示学习通过引入任务相关的模板将下游任务转换成和预训练目标一致的形式。其中，如何构建模板和标签映射至关重要。模板提示在一定程度上是任务和预训练模型交互的接口，通过将任务、领域相关的先验知识植入提示设计，显然可以让模型更加懂任务、懂数据。我们将这一技术思路称作“知识提示”，并介绍相关的方法。

2.2、知识提示学习：Knowledge-informed Prompt Learning

“知识提示学习”旨在通过植入任务、领域相关的知识，通过“Knowledge as Prompt”来降低提示学习的模板构建和标签映射成本，提升预训练模型对领域、任务的感知，激发预训练模型的潜能，提升下游任务的性能。清华大学曾提出了将逻辑规则植入提示学习的方法PTR[28]和通过外部知识图谱扩展标签映射的方法KPT[29]，在关系抽取、文本分类等任务场景取得较大的性能提升。一般来说，植入外部知识可以通过输入增强、架构增强、输出正则等形式[30]。然而针对知识提示，如何高效的将外部知识植入提示模板和标签映射仍面临一定的挑战。针对第一问题，我们在提示学习框架中引入实体关系约束，提出了一种高效的知识植入提示学习方法KnowPrompt。

三、KnowPrompt：“知识提示”学习之知识约束

3.1 动机

提示学习在具体的任务中面临诸多挑战。以关系抽取（RE）为例，如下图所示：一方面，为关系抽取构建合适的提示模板需要专业的领域知识，且模板需要大量的验证集进行验证，成本高昂；另一方面当关系抽取的标签的个数发生变化时，标签词搜索过程的计算复杂度非常高（通常与类别个数呈指数关联），因此较难在语言模型词汇表中针对特定的关系标签获得合适的标签词。我们观察到，关系标签之间存在丰富的语义知识，即关系三元组之间存在结构约束。例如，如果一对实体包含“person”和“country”的类型，则[MASK]在关系“org:city_of_headquarters”上的预测概率会相对较低。此外，关系也约束它的实体的类型。

受此启发，我们将实体关系约束知识植入提示学习过程，并提出了KnowPrompt方法。我们通过可学习的虚拟答案词和虚拟类型词构建知识注入的提示，并通过实体关系约束植入外部结构化知识，以降低模板构建成本并提升任务对领域任务的感知。

3.2 方法

具体来说，KnowPrompt模型分为提示的构建和优化两个步骤：

3.2.1 Prompt Construction with Knowledge Injection

因为一个经典的提示由两个部分组成，即模板和一组标签词映射，我们提出了虚拟类型词（实体）和虚拟答案词（关系）的构建，用于关系抽取任务的知识注入。

（1）Entity Knowledge Injection

Type Marker 方法可以额外引入实体的类型信息以提高性能，但需要对类型信息进行额外注释，而实体类型标注在数据集中并不总是可用的。因此，我们通过特定关系中包含的先验知识而不是注释来获得潜在实体类型的范围。例如，给定关系“per:country_of_birth”，很明显与该关系匹配的头实体属于“人”，而与该关系匹配的尾实体属于“国家”。直观地说，我们根据关系类型分别估计在候选集