ACL'22丨预训练语言模型能否像人一样解释明喻

每天给你送来NLP技术干货！

来自：知识工场

前言

明喻是人们日常生活中一类常见的表述形式，解释明喻可以帮助机器更好地理解自然语言。因此，明喻解释(SimileInterpretation)是自然语言处理领域中一个重要的研究问题。如今，大规模预训练语言模型(Pre-trainedLanguage Models , PLMs)在各类自然语言处理任务上得到突出的表现效果。那预训练语言模型是否能像人一样解释明喻呢?

本文介绍了复旦大学知识工场实验室的最新工作《Can Pre-trained Language Models Interpret Similes as Smart as Human?》，该工作已经被ACL 2022录用。此工作创新性地提出了明喻属性探测任务(Simile Property Probing)，也即让预训练语言模型推断明喻中的共同属性。此工作从通用语料文本、人工构造题目两个数据源构建明喻属性探测数据集，规模为1,633个题目，涵盖七个主要类别。基于构建的数据集，实验证明预训练语言模型具有一定推断明喻属性的能力，但是仍然不及人类的表现。为了进一步增强预训练语言模型的明喻解释能力，此工作借鉴知识表示方法设计优化目标，将明喻知识注入模型。实验证明，该优化目标在探测任务带来8.58%的提升、在情感分析下游任务上带来1.37%的提升。

paper: https://arxiv.org/abs/2203.08452

Datasets and Code：https://github.com/Abbey4799/PLMs-Interpret-Simile

研究背景

通过捕捉概念之间的共同属性，明喻将看似无关的两个概念联系起来，形成一段生动的表述。例如图1中虽然“老妇人”与“蜗牛”看似毫无关系，前者是人类，后者是动物。但是，由于二者的共同属性——“行走速度较慢”，明喻便在二者之间建立了联系，拓展了语言的表达能力，丰富了读者的想象力。

图1：明喻通过共同属性将两个概念联系起来的示例。

明喻主要分为两类：封闭式明喻(ClosedSimile)，以及开放式明喻(OpenSimile)。如图2所示，二者区别在于是否显式地指明本体、喻体的共同属性，例如上例中的“速度慢”。

若属性显式出现(例如，The old lady walks as slow as a snail.)，则是封闭式明喻;
若没有显式指出属性(例如，The old lady walks like a snail.)，则是开放式明喻。

图2：两类明喻的示例。二者区别在于是否显式地指明共同属性。

明喻解释是自然语言处理领域中的一个重要研究问题，可以帮助许多下游任务，例如：理解更复杂的修辞手法、情感分析任务等。以明喻“这个律师像一条鲨鱼”为例，此句虽然用词中性，但当机器推断出“律师”和“鲨鱼”共同具有的“气势汹汹”这一属性后，便可判断这一句所表达的是消极情绪。

近年来，大规模预训练语言模型，例如BERT、RoBERTa，成为解决自然语言处理任务的新趋势。许多研究证明，大规模预训练语言模型在预训练过程中存储了一定知识在模型丰富的参数、精巧的结构中。然而，预训练语言模型解释明喻的能力却并未被关注。

因此，我们创新性地提出了明喻属性探测任务(SimileProperty Probing)。通过让预训练语言模型推断明喻中的共同属性，从而研究了预训练语言模型解释明喻的能力。

明喻属性探测任务

问题建模

为了研究预训练语言模型解释明喻的能力，我们遮盖(Mask)了封闭式明喻(ClosedSimile)中的属性，让语言模型根据上下文信息推断属性。由于本体和喻体可能同时拥有多个属性，因此，我们将任务设计为选择题(只有一个正确答案)而非填空题。

给定一个单词序列S={w₁w₂，,...，w_i-1，[MASK]，w_i+1，...，w_n}，将本体和喻体共有属性w_i遮盖为[MASK]符号。PLMs需要从四个选项中选择正确属性，剩余三个选项为错误干扰选项。

数据集构建

针对明喻属性探测任务，我们构建了评估数据集。我们首先从两个数据来源搜集封闭式明喻，并基于明喻组件设计干扰选项候选集合，接着我们利用余弦相似度筛选最具有挑战性的干扰选项得到最终选项，最后我们通过人工标注确保数据集的质量。整体数据集构建流程展示如图3。

图3：构建明喻属性探测数据集流程图。

数据来源

我们选择两个数据来源以构建数据集：通用语料文本、人工构造题目。由于开放式明喻的属性没有被显式指出，若要用以构建明喻属性探测数据集，需要人工根据上下文标注正确属性。为了减少标注的成本，在构建数据集的过程中，我们选择显式指出属性的封闭式明喻作为数据来源。

通用语料文本。首先选取两个通用语料库：BNC以及iWeb，随后利用模版as ADJ as (a, an, the) NOUN匹配句子。

人工构造题目。老师为检验学生是否掌握明喻知识所制定的题目是合适的数据来源。因此，我们将在线测验的趣味学习平台Quizizz作为数据来源。选取一系列标题与明喻相关的测验，并基于测验中的问题和答案解析出封闭式明喻。

为了保证数据集的质量，三个标注者对句子是否为明喻进行判断，并标注每个句子的明喻组件。数据集中所有属性均为单符号的(single-token)，原句中的多符号(multi-token)属性均被替换为它们在知识库WordNet和ConceptNet中的单符号同义词。

干扰选项构建

为了保证题目的质量，我们以两个原则设计了剩余的三个干扰选项：错误(true-negative)、具有挑战性(challenging)。也即，高质量的干扰选项应该违背上下文的逻辑（true-negative ），同时与正确答案语义相关(challenging)。

生成干扰选项。为了实现“具有挑战性(challenging)”的要求，我们基于明喻中四个语义相关的组件(本体topic、喻体vehicle、谓词event、属性property)设计干扰选项候选集合。

给定原有属性，我们首先从知识库WordNet和ConceptNet中获取反义词;
对于剩下的三个组件，我们首先利用ConceptNet的HasProperty和COMET分别获得每个组件相关属性。接着，通过统计频次，获得每个组件在Wikipedia和BookCorpus中共现次数最多的副词/形容词，选取共现频次排名前十的修饰词（并且频次大于1）作为候选选项。

通过以上策略，得到干扰选项候选集。

筛选干扰选项。我们利用句子的相似度，进一步从干扰选项候选集中获得最具有挑战性的干扰选项。整体流程如图4。给定原句以及将正确属性替换为的干扰选项的新句子，我们利用RoBERTa_LARGE提取两类特征，从而衡量二者的相似度。

一个是上下文特征(Context Embedding)，由[CLS]的嵌入向量表示；
一个是单词特征(Word Embedding)，由正确选项或干扰选项的嵌入向量表示。

最后，拼接两个特征，利用余弦相似度(consinesimilarity)衡量正确答案和干扰选项之间在给定上下文中的关联性。最终，选取关联性最高的三个干扰选项与正确答案组成最终选项。

人工确认选项。为了确保干扰选项为“错误(true-negative)”的，由三个标注者对干扰选项进行清洗。

图4：筛选最具有挑战性的干扰选项的示意图。

数据集统计指标

最终，我们从通用语料文本、人工构造题目两个数据源构建明喻属性探测数据集，规模为1,633个题目，涵盖七个类别。题目示例如表1。

表1：明喻属性探测数据集中各类题目的示例和占比。其中，“__”标示的选项是正确答案。每句中的斜体词分别代表本体、遮盖后的属性和喻体。

数据集统计指标如表2。整体而言，Quizzes数据集中的明喻更常见，GeneralCorpus数据集中的明喻上下文更丰富。

表2：明喻属性探测数据集统计指标。

有监督微调

除了评估预训练语言模型在零样本场景下直接表现的预测明喻属性能力，我们利用遮盖属性后的Masked Language Modeling (MLM)训练目标微调模型，探索微调是否能提升模型理解明喻的能力。我们利用来自StandardizedProject Gutenberg Corpus(SPGC)语料库4510条(Noun... as ADJ as ... NOUN)的句子作为微调数据。

主要实验结果

我们对比了模型在零样本、微调后的结果，并与前人工作、人类表现进行对比。实验结果如表3。

表3：各模型在明喻属性探测任务中的准确率。

我们观察到：

模型在预训练阶段存储的知识可以帮助推断明喻属性;
利用MLM目标微调可以进一步提升模型预测明喻属性的能力;
微调后的模型仍然不及人类的表现。

总体而言，模型在Quizzes数据集上的表现好于在GeneralCorpus数据集上的表现效果，更丰富的上下文会增加推断明喻属性的难度。同时，RoBERTa的表现持续好于BERT，证明更大规模的预训练语料可以让模型建模更多的明喻文本。

我们还对明喻各个组件对解释明喻的贡献程度进行探究，从而进一步揭示模型解释明喻的机制。我们分别将明喻组件(本体、喻体、比较词)替换为[UNK]符号，将谓词替换为be动词从而在抹除语义的同时不影响语法。我们同时随机替换任一符号为[UNK]作为对照。实验结果如表4。

表4：未经微调的预训练语言模型在分别遮盖各组件的情况下预测明喻属性的结果。

我们观察到：

喻体、本体和比较词较上下文能提供更关键的信息;
喻体能提供最丰富的语义信息，本体次之。

因此，我们认为有效利用喻体和本体的信息可以进一步提高模型的表现效果。

增强PLMs中的明喻知识

设计目标函数进行知识增强

根据实验分析，我们已知本体和喻体是推测明喻属性最重要的两个组件。因此，由知识表示相关方法(Knowledge Embedding, KE)启发，我们认为属性(property)可以看作本体(topic)和喻体(vehicle)的关系。受事实三元组的启发，我们将明喻看作三元组(本体topic，属性property，喻体vehicle)。如图5所示，在表示空间中，将属性看作从本体到喻体的平移向量。用知识表示方法的打分函数对属性予以评估和约束。

图5：我们设计的目标函数示意图

受经典的知识表示方法TransE启发，我们利用均方误差(MeanSquare Error, MSE)损失函数作为我们的知识表示损失函数(KE Loss)。

L_KE= MSE(E^t+ E^p, E^v)

其中，E^t，E^p, E^v为本体、属性、喻体由语言模型编码的表示向量。我们也尝试了改进后的知识表示方法(例如TransH，TransD)，我们将结果展示在附录中。

最终，我们的损失函数由MLMLoss和KE Loss共同组成：

L_Ours = αL_KE + L_MLM

其中，α是平衡两个目标函数的超参数。

实验结果

我们分别基于MLM目标函数以及我们设计的目标函数进行微调，对比模型在明喻属性探测任务上的表现效果。实验结果如表5。

表5：利用MLM以及我们设计的目标函数在明喻属性探测任务上的准确率。

我们观察到我们设计的目标函数可以提高模型推测共同属性的能力，在明喻属性探测任务上验证了我们设计的目标函数的有效性。

研究表明，明喻往往带有情感极性。为了进一步揭示改进后目标函数的应用潜力，我们在情感分析下游任务上进行实验。我们选取Amazon评论情感分析数据集进行二分类任务，训练过程中仅更新MLP层的参数，预训练语言模型的参数保持不变。预训练语言模型的参数来自于明喻属性探测任务中的三个场景：零样本(Original)、基于MLM目标函数微调后（L_MLM）、基于知识增强后的模板函数微调后（L_Ours）。实验结果如表6。

表6：三个场景下的预训练语言模型在情感分析下游任务上的准确率。

我们观察到，增强预训练语言模型推断明喻属性的能力可以提升模型分析文本情感极性的能力。同时在下游任务上也验证了我们设计的目标函数的有效性。并且，我们在论文中也通过实验分析了目标函数带来表现提升的原因。

总结

我们是第一篇通过设计明喻属性探测任务研究预训练语言模型解释明喻能力的文章。基于两个数据来源构建了两个明喻属性探测数据集，并进行了一系列实验。我们证明了预训练语言模型在预训练阶段已经掌握一定推断明喻属性的能力，同时该能力可以进一步在精调阶段提升，但是仍然与人的表现有所差距。特别地，我们提出的目标函数将明喻知识注入模型，进一步缩短了这一差距。我们的目标函数在明喻属性探测任务以及情感分析下游任务上都表现出有效性。在未来，我们将考虑探索如何让机器解释更复杂的修辞手法，例如隐喻和类比。

END

论文&文稿作者

ACL'22丨预训练语言模型能否像人一样解释明喻相关推荐

ACL 2022丨香港大学华为诺亚方舟新工作：生成式预训练语言模型的量化压缩
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达近日,香港大学与华为诺亚方舟实验室在 ACL 2022 上联合发表了 ...

《预训练周刊》第22期：Fastformer：加法注意力就是你所需要的、用于蛋白建模的大规模预训练语言模型...
No.22 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第22期&l ...

直播 | ACL 2021论文解读：提升预训练语言模型实体与关系理解的统一框架
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

清华刘知远组：让预训练语言模型持续高效吸收新领域知识 | ACL 2022
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达论文标题: ELLE: Efficient Lifelong Pre ...

从 200 多篇顶会论文看预训练语言模型研究进展
© 作者|王晓磊机构|中国人民大学高瓴人工智能学院博士一年级导师|赵鑫教授研究方向 | 对话系统和预训练模型近年来,以 BERT 和 GPT 系列为代表的大规模预训练语言模型(Pre-trai ...

周末送新书 | 一文了解预训练语言模型！
近年来,在深度学习和大数据的支撑下,自然语言处理技术迅猛发展. 而预训练语言模型把自然语言处理带入了一个新的阶段,也得到了工业界的广泛关注. 通过大数据预训练加小数据微调,自然语言处理任务的解决,无须 ...

预训练语言模型fine-tuning近期进展概述
近年来,迁移学习改变了自然语言处理领域的范式,对预训练语言模型(PLM)进行微调(fine-tuning)已经成为了新的范式.本文主要梳理了近期的预训练语言模型做fine-tuning的进展. ‍‍‍ ...

赠书 | 一文了解预训练语言模型
来源 | 博文视点头图 | 下载于视觉中国近年来,在深度学习和大数据的支撑下,自然语言处理技术迅猛发展.而预训练语言模型把自然语言处理带入了一个新的阶段,也得到了工业界的广泛关注. 通过大数据预训 ...

retinanet50预训练权重_论文导读|基于注意力机制对齐增强预训练语言模型
李彦增这篇文章通过提出了一种注意力机制对齐的方法,为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识,从而提升了预训练语言模型在各个子任务上的效果.本文收录于 2020 年 A ...

最新文章

tsp问题 python_ortools tsp问题

H5移动端页面设计心得分享

kafka消费端慢慢延迟（网络带宽不足）

工作总结16：多看官网

javaweb基础(40)_jdbc框架

返回一个1到54之间的随机数

select下拉框怎么去掉空白_行业词库：网站长尾关键词优化怎么做呢?

consul 数据持久化_一起学习Nacos的数据持久化

Windows7安装PowerShell5.1方法（Flutter新版本需要）

java 登陆系统设计_Java 程序设计——登录系统

2、Kmeans算法处理出租车数据

Apollo添加新的can通信接口的GPS设备

脑智前沿科普：脑深部电刺激治疗帕金森病的原理

深度学习笔试、面试题一

lumion自动保存_lumion 保存在哪里? 我想在家里做白天带到公司做怎么操作保存文件可以带走的吗？...

windows保护无法启动修复服务器,win10使用命令修复系统时提示Windows 资源保护无法启动修复服务怎么办...

hdu5755 Gambler Bo（高斯消元）

mysql误删了数据_MySQL误删数据

ROSIntegration ROSIntegrationVision与虚幻引擎4（Unreal Engine 4）的配置

非uefi模式安装linux,UEFI启动模式下安装Ubuntu 16.04教程

热门文章

人人语音相册的语音下载方法

Initializing from file failed

decomposeParDict----并行运算文件

linux 更改网络速度,教你一招提高Linux操作系统网速方法(转)

javas cript入门要了解的知识和书籍

转载内存或磁盘空间不足 Microsoft Excel无法再次打开解决方法

android Rect的使用

tf.app.run()

Harbor 整合ldap认证

金山毒霸2007亮点介绍