20. Learning to Perturb Word Embeddings for Out-of-distribution QA 阅读笔记

20. Learning to Perturb Word Embeddings for Out-of-distribution QA

论文地址：https://arxiv.org/pdf/2105.02692.pdf

Author Information:：Seanie Lee^1,* Minki Kang^1,*Juho Lee¹, Sung Ju Hwang^1,2

Institutions Information:

1. KAIST, South Korea
2. AITRICS, South Korea

ACL 2021

0 Abstract

基于预训练语言模型的QA模型在各种基准数据集上取得了显著的性能。然而，由于分布的变化，QA模型不能很好地推广到训练分布之外的未见数据。通过drop或替换单词的数据增强(DA：Data Augmentation )技术，已经被证明在正则化从过拟合到训练数据的模型上是有效的。但是，此种方式的数据增强可能会对QA任务产生不利的影响，因为它们会引起语义的变化，从而会导致QA任务产生错误的答案。
为了解决这个问题，本文提出了一个基于随机噪声生成器（stochastic noise generator）的简单并且有效的数据增强模型。该方法在不改变语义的前提下，打乱输入的问题（question）和文本(context)的词向量的表示。
在单个源数据集上，在五个不同的目标域上，我们验证了用我们的词嵌入扰动训练的QA模型的性能。结果表明，我们的方法明显优于基线DA方法。值得注意的是，用我们的模型训练的模型优于用240K以上人工生成的QA对训练的模型。

1 Introduction

深度学习模型在各种真实世界的自然语言理解任务上取得了令人印象深刻的表现，如文本分类、机器翻译、问答和文本生成等。最近，使用大量未标记数据进行预训练的语言模型在这些下游任务的表现上取得了突破，甚至在其中一些任务上超过了人类的表现。
        这种数据驱动语言模型预训练的成功在很大程度上取决于可用的训练数据的数量和多样性，因为当使用少量高偏差数据进行等量贡献训练时，预训练的模型可能会过拟合，并可能不能很好地推广到非分布数据。数据增强(DA)技术可以在一定程度上防止这种情况的发生，但大多数都是针对图像域开发的，并不能直接应用于单词和文本的增强。也许在监督学习中，扩充方法最重要的要求是，它不应该改变例子的标签。对图像领域而言，有几个比较好的数据增强技术，可以在不改变语义的前提下，产生多样性的数据。相反，在NLP领域，在不改变其语义的情况下增加输入文本是不简单的。保留语义的一种简单的增强技术是用同义词替换单词或使用反向翻译。然而，它们并不能有效地提高泛化性能，因为使用这种技术的可行转换的多样性非常有限。
        近期的研究，提出通过删除或替换同义词的方法来实现数据增强，并且该方法在本领域（in-domain）或其它领域(out-of-domain)均取得了不错的效果。
        然而，如图1所示，我们发现大多数现有的NLP数据增强方法改变了原始输入的语义。虽然语义上的这种变化对于某些任务可能不是一个严重的问题，但对于问答(QA)任务可能是关键的，因为它对输入的语义很敏感。
例如，用同义词替换单个单词(图1中的Hesburgh→Vanroth)可能会导致答案的语义严重漂移。因此，词级的数据增强方式，对QA任务而言，是没用的。大多数现有的QA任务数据增强工作都采用问题或QA对生成。但是，这种方法需要大量的训练时间，因为我们必须训练一个单独的生成器，从它们中生成QA对，然后使用生成的对来训练QA模型。此外，qa对生成方法并不是样本效率高的，因为它们通常需要大量生成的对来获得有意义的性能增益

为了解决现有QA数据增强技术的这些局限性，我们提出了一种基于可学习的词级扰动的数据增强方法，该方法有效地将模型规范化，以提高其对不可见问题和具有分布转移的上下文的泛化能力。具体来说，我们训练一个随机扰动函数来学习如何在不改变语义的情况下扰动输入的每个词的嵌入，并利用扰动样本来增强训练数据。我们将这种数据增强方法称为随机词嵌入扰动(SWEP：Stochastic
Word Embedding Perturbation )。

Contributions

我们提出了一种简单而有效的数据增强方法来提高预训练语言模型在QA任务中的泛化性能。
我们证明了我们所学习的依赖于输入的扰动函数在不改变原始输入语义的情况下对其进行转换，这是DA问答成功的关键。
我们广泛地验证了我们的方法在不同的数据集上的领域泛化任务，在这些数据集上，它很大程度上优于强基线，包括qa对生成方法。

3 Model

模型解读

将长度为T = L+M+3（具体为：L的context、长度为M的question,以及[CLS]、[SEP]、[SEP]）作为输入；
过Bert,得到对应的Embeddings；
使用编码器函数f(·;θf)将输入x上下文化为隐藏表示(h1，…，hT)，并将其输入扰动函数（perturbation function）;
继续上传，得到L_MLE
将得到的隐状态{h_t}过MLP（多层感知机），得到
通过采样，得到分布z_t，具体计算方法为：
通过将z_t和最开始得到的词向量表示e_t,进行点乘，得到想要的结果

8. 继续往上传，得到L_noise

9. 最后，通过L_noise和L_MLE两个损失函数调参，公式为：