WWW2022 | 知识提示的预训练微调

每天给你送来NLP技术干货！

来自：浙大KG

一、引言

最近一年以来蓬勃发展的自然语言处理新范式“提示学习”(Prompt Learning)，通过构造提示模板和标签映射，显著提升了模型的少样本、跨领域、多任务等能力。在提示学习中，如何针对具体任务，构建出最合适的模板提示和标签映射组合，是提升任务性能的关键。因此，通过植入相关的任务和领域知识来构建提示模板，以“知识提示”指导预训练语言模型，可以提升模型对任务和领域的感知，充分的激发预训练语言模型的潜力，提升任务性能。本文梳理了有关“知识提示”的学习方法，并介绍了被TheWebConf(WWW)2022录用的两个新工作：OntoPrompt和KnowPrompt。其中, KnowPrompt在提示学习框架中引入实体关系约束，将知识图谱中的实体关系植入到提示学习中；OntoPrompt则实现了将本体知识（Ontology）选择性植入提示学习中来解决少样本学习问题。

二、背景知识

2.1 自然语言处理的“第四范式”：提示学习

早年的自然语言处理方法严重依赖特征工程、特征工程，通过精心设计数据特征和网络架构来实现下游任务。近几年随着语言模型如GPT、BERT、BART的出现，“预训练”+“微调”成为了自然语言处理的标准范式，并以统一的模型架构显著提升了大量任务的性能。然而，在预训练和微调的过程中，不同阶段的优化目标不一致。于是，起源于GPT3，并由PET[1,2]、LM-BFF[3]发展而来的一种全新的范式----“提示学习”[4]，引起了学者的广泛关注。通过构造提示模板和标签映射，“提示学习”可以统一预训练和微调的优化目标，并实现轻量、高效的下游任务微调，从而更好的完成任务。

随着技术的不断发展，新的提示学习方法不断涌现，不同团队在同一时期提出了大量了新思路、新方法。清华大学提出了可自动学习模板的P-tuning[5]和预训练提示方法PPT[6],以解决需要人工构建模板和最优初始化等问题；斯坦福大学提出了Prefix-tuning[7]以参数可学习的前缀来实现高效的预训练语言模型微调;谷歌提出了FLAN[8]通过自然语言指令微调实现更快、更小、更好的模型优化；Huggingface提出了T0[9]以更加多样化的提示和多任务学习使模型具备更加鲁棒、泛化的能力；浙江大学和阿里巴巴达摩院提出了可同时学习模板和标签映射的DART[10]以实现全流程端到端微调降低模板提示构建成本。更多的工作开始尝试将提示学习应用在如实体识别与分类[11,12,13,14]、关系抽取[15]、自然语言生成[16]、事件抽取[17,18,19]、情感分析[20,21]、语义解析[22]、视觉定位[23]、图像生成[24]、多模态问答[25,26]等任务。相关工作可以参见https://github.com/thunlp/PromptPapers以及CCF关于提示学习的术语解读[27]。

从本质上讲，提示学习通过引入任务相关的模板将下游任务转换成和预训练目标一致的形式。其中，如何构建模板和标签映射至关重要。模板提示在一定程度上是任务和预训练模型交互的接口，通过将任务、领域相关的先验知识植入提示设计，显然可以让模型更加懂任务、懂数据。我们将这一技术思路称作“知识提示”，并介绍相关的方法。

2.2 知识提示学习：Knowledge-informed Prompt Learning

“知识提示学习”旨在通过植入任务、领域相关的知识，通过“Knowledge as Prompt”来降低提示学习的模板构建和标签映射成本，提升预训练模型对领域、任务的感知，激发预训练模型的潜能，提升下游任务的性能。清华大学曾提出了将逻辑规则植入提示学习的方法PTR[28]和通过外部知识图谱扩展标签映射的方法KPT[29]，在关系抽取、文本分类等任务场景取得较大的性能提升。一般来说，植入外部知识可以通过输入增强、架构增强、输出正则等形式[30]。然而针对知识提示，如何高效的将外部知识植入提示模板和标签映射仍面临一定的挑战。此外，先前的工作[31,32]表明,并不是所有的外部知识都能带来增益，不加选择的植入外部知识有时会引入噪音。总的来说，“知识提示”面临如下的挑战。

问题1：如何高效地植入外部知识，构建提示模板和标签映射？

问题2：并不是所有外部知识都有帮助，如何解决知识噪音和异构性问题？

针对第一个问题，我们在提示学习框架中引入实体关系约束，提出了一种高效的知识植入提示学习方法KnowPrompt；针对第二个问题，我们基于知识线性化转换和注意力掩码矩阵实现将本体知识选择性植入提示学习，提出了一种解决知识噪音和异构性的方法OntoPrompt。下面将详细介绍这两个工作。

三、KnowPrompt：“知识提示”学习之知识约束

论文题目：KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction

本文作者：陈想（浙江大学）、张宁豫（浙江大学）、谢辛（陈想）、邓淑敏（浙江大学）、姚云志（浙江大学）、谭传奇（阿里巴巴）、黄非（阿里巴巴）、司罗（阿里巴巴）、陈华钧（浙江大学）

接收会议：WWW2022

论文链接：https://arxiv.org/abs/2104.07650

代码链接：https://github.com/zjunlp/KnowPrompt

3.1 动机

提示学习在具体的任务中面临诸多挑战。以关系抽取（RE）为例，如下图所示：一方面，为关系抽取构建合适的提示模板需要专业的领域知识，且模板需要大量的验证集进行验证，成本高昂；另一方面当关系抽取的标签的个数发生变化时，标签词搜索过程的计算复杂度非常高（通常与类别个数呈指数关联），因此较难在语言模型词汇表中针对特定的关系标签获得合适的标签词。我们观察到，关系标签之间存在丰富的语义知识，即关系三元组之间存在结构约束。例如，如果一对实体包含“person”和“country”的类型，则[MASK]在关系“org:city_of_headquarters”上的预测概率会相对较低。此外，关系也约束它的实体的类型。

受此启发，我们将实体关系约束知识植入提示学习过程，并提出了KnowPrompt方法。我们通过可学习的虚拟答案词和虚拟类型词构建知识注入的提示，并通过实体关系约束植入外部结构化知识，以降低模板构建成本并提升任务对领域任务的感知。

3.2 方法

具体来说，KnowPrompt模型分为提示的构建和优化两个步骤：

3.2.1 Prompt Construction with Knowledge Injection

因为一个经典的提示由两个部分组成，即模板和一组标签词映射，我们提出了虚拟类型词（实体）和虚拟答案词（关系）的构建，用于关系抽取任务的知识注入。

（1）Entity Knowledge Injection

Type Marker 方法可以额外引入实体的类型信息以提高性能，但需要对类型信息进行额外注释，而实体类型标注在数据集中并不总是可用的。因此，我们通过特定关系中包含的先验知识而不是注释来获得潜在实体类型的范围。例如，给定关系“per:country_of_birth”，很明显与该关系匹配的头实体属于“人”，而与该关系匹配的尾实体属于“国家”。直观地说，我们根据关系类型分别估计在候选集

WWW2022 | 知识提示的预训练微调相关推荐

论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调
本文作者 | 陈想(浙江大学).张宁豫(浙江大学).谢辛(陈想).邓淑敏(浙江大学)姚云志(浙江大学).谭传奇(阿里巴巴),黄非(阿里巴巴),司罗(阿里巴巴),陈华钧(浙江大学) 接收会议 | WWW ...
自然语言处理NLP——ERNIE-M：基于回译机制的“预训练-微调”多语言模型
目录系列文章目录一.背景介绍 1.多语言任务 1.1 多语言任务定义 1.2 多语言任务难题 2.多语言模型 2.1 多语言模型定义与原理 2.2 多语言模型困难 3.论文简介 3.1 背景与开发 ...
论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练
论文题目:OntoProtein: Protein Pretraining With Gene Ontology Embedding 本文作者:张宁豫(浙江大学).毕祯(浙江大学).梁孝转(浙江大学) ...
《南溪的目标检测学习笔记》——预训练微调的学习笔记
1 ImageNet分类网络微调可以直接修改模型的成员layer,例如: model.fc = nn.Linear(fc_features, n) 2 COCO预训练微调需要对head部分进行修改 ...
预训练+微调+Rethinking ImageNet Pre-training论文阅读笔记
文章目录一.前言二.预训练+微调 1.预训练 2.微调 3.Pytroch实现三.Rethinking ImageNet Pre-training论文笔记参考文献一.前言近期在阅读何凯明大 ...
KD-VLP：知识蒸馏和预训练还能这么结合？上科大IntelMSRA提出基于知识蒸馏的端到端多模态预训练模型...
关注公众号,发现CV技术之美本文分享论文『KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowl ...
NLP 中的语言模型预训练微调
1 引言语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布.具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性.在实践中,如果 ...
《预训练周刊》第51期：无重构预训练、零样本自动微调、一键调用OPT
No.51 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
《预训练周刊》第35期：零样本规划器的语言模型：为智能体提取可操作的知识、LaMDA：对话应用的语言模型...
No.35 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了13篇预训练相关的论文,涉及动作规划.大模型改进.网络结构.零样本学习.对话模型.视频理解.机器翻译. ...
《预训练周刊》第20期：EVA：包含28亿参数的中文预训练对话模型、基于知识融入提示词的文本分类...
No.20 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第20期&l ...

WWW2022 | 知识提示的预训练微调

WWW2022 | 知识提示的预训练微调相关推荐

最新文章

热门文章