【ACL2021】具有可解释的、鲁棒的、并具有泛化能力的三篇问答系统相关论文

点击下面卡片，关注我呀，每天给你送来AI技术干货！

来自：复旦DISC

引言

问答任务已经取得了很多进展，然而在不断提高模型性能的同时，我们希望模型是可解释的、鲁棒的、并具有泛化能力的。本期DISC论文分享将介绍 2021 ACL 会议中有关问答任务的3篇文章。其中第一篇针对多跳问答，通过监督可回答性和证据性，来减少通过单步捷径的作弊推理，从而进一步提高模型的性能。后面两篇以不同的方式构造了挑战性数据集，来验证QA模型的鲁棒性和泛化性。

文章概览

Robustifying Multi-hop Question Answering through Pseudo-Evidentiality Training

论文地址：https://aclanthology.org/2021.acl-long.476.pdf

对于多跳问答任务来说，可能会出现的推理捷径(shortcut)的情况，即模型不进行所需的完整推理链就猜到了正确答案。为了解决这种“作弊”问题，本文提出通过同时监督可回答性和证据性来提高多跳问答模型的鲁棒性，另外，本文也提出了获得证据性正负样本的方法，而无需人工标注。

: A Chinese Dataset Towards Evaluating Robustness and Generalization of Machine Reading Comprehension in Real-World Applications

论文地址：https://aclanthology.org/2021.acl-short.120.pdf

机器阅读理解（MRC）是自然语言处理中的一项关键任务，并取得了显着的进步。然而，大多数神经 MRC 模型仍然远非健壮，无法在实际应用中很好地泛化。为了全面验证MRC模型的鲁棒性和泛化性，本文创建了一个真实世界的中文数据集，从过度敏感、过度稳定和泛化这三个方面评估 MRC 模型。

On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study

论文地址：https://aclanthology.org/2021.acl-long.517.pdf

在对抗性数据收集 ( adversarial data collection, ADC ) 中，人力与模型实时交互，试图生成导致错误预测的示例，希望在这些更具挑战性的数据集上训练的模型能够减少对表面模式的依赖，从而减少模型的脆弱性。本文进行了一项针对问答的大规模对照研究，随机分配工人以（i）对抗性（ADC ) 或 (ii) 以标准方式（SDC）来生成问题，然后在各种模型和数据集上评估QA模型的性能。

论文细节

论文动机

多跳问答需要通过连接来自多个文本的多个相关事实（即证据），进行推理来回答复杂问题。然而，之前的工作在一些正确答案中观察到了“推理捷径“(reasoning shortcuts)，例如，当询问“二战结束时哪个国家获得了独立”，且给定文本中只出现了“韩国在1945年独立”这一句与国家有关的事实时，模型就可以简单地通过捕捉到答案类型是国家，来猜测得到正确答案”韩国“，而不需要先进行“二战结束时间为1945年”这一步推理。这种情况不是多跳问答的目的，针对这一问题，本文提出，除了监督问题的可回答性（answerability），还需要监督证据性（evidentiality），即答案是否获得了充分的、正确的证据推理链的支持。

方法

监督标签的获得

（a）可回答性（answerability）

本实验使用HotpotQA数据集，在每一条数据中，每个问题对应的输入文本为2个相关段落和8个无关段落，其中证据分散在2个中。因此，连接两个一定是可回答的（answer-positive ，既包含答案也包含证据），连接两个不含答案的一定是不可回答的（answer-negative ，既不包含答案也不包含证据）。

（b）证据性（evidentiality）

当且仅当输入文本中包含完整的推理链时，该文本是证据的（evidence-positive ）。基于这样的定义，可以生成包含以下三种类型的负样本（evidence-negative ）：

仅含答案句：假设是一个包含答案的句子，删除可回答段落中除之外的所有句子；
含答案句+无关事实：连接和不可回答的 D；
部分证据句+无关事实：连接和。

这些负样本并不具备所有的相关证据，因此如果模型在这些例子上预测出了正确答案，则意味着该模型进行了推理捷径。

为了获得正样本，由于人工标注费时费力，因此本文设计了模块Interpreter，从可回答段落中的句子中找到预测正确答案的有影响力的句子，然后将它们视为伪证据正集（pseudo evidence-positive set）。现有方法使用答案置信度来寻找伪证据，具体做法为，迭代地将句子插入到上个时刻为止已有的输入文本中去，那么两个时刻对于答案的预测概率的差，就可以看作是这个句子所带来的影响。这个差值越大，说明的影响越大，就越有可能是证据句子：

同样的，如果把证据性句子从输入文本中删掉，那么推理路径被打断了，对答案的预测概率就应该会降低：

结合以上插入和删除的作用，可以计算得到每句句子的总的显著性分数：

在每个时间，我们选择概率差值最大的句子插入到：

直到或时停止迭代，那么中的最终句子就是伪证据正集。

可回答性和证据性的学习

（1）可回答性和答案的监督：

使用RoBERTa (Liu et al., 2019) 作为QA模型，其中输入是 [CLS] question [SEP] passage [EOS]，输出为答案的开始和结束位置的概率：

由于 HotpotQA 数据集涵盖了是/否(yes/no)和跨度提取(span)问题，因此，通过标记的隐状态，构建一个预测四个概率的多类分类器（代表不可回答）：

对每条数据，损失函数是交叉熵损失 () 的总和：

（2）证据性的监督：

首先声明无偏模型（无推理捷径）的两个目标：

• (O1)：QA 模型不应对没有证据的段落（）过于自信。

• (O2)：QA 模型应该对同时提供答案/证据的文章（）有信心。

对于O1，一种朴素的方法考虑使用正则化项来避免对的过度自信。过度自信的答案分布会偏离均匀分布，例如 Kullback-Leibler (KL) 散度会很高，其中和分别是答案概率和均匀分布：

然而，由于和的相关性，正则化以保持前者的置信度较低，可能会导致后者的置信度也降低，即在追求满足O1的时候会违反O2的目标。因此，希望去相关和上的两个分布以同时满足 O1 和 O2。下图中，将隐状态输入到两个预测器中，其中预测器用于学习目标分布，而被故意训练为对过度自信（即在证据缺失的情况下仍通过shortcut得到正确答案），然后正则化目标分布以偏离有偏分布。

该正则化只在上操作，具体来说，正则化项表示为：

由于在训练的初始步骤中，Interpreter 并不可靠，因为 QA 模型还没有得到足够的训练，因此，在前个epoch内不使用进行训练，而是在这段时间内不断提取，在这之后再继续在所有集合上进行训练。整个训练过程如下图所示：

最终的损失函数如下，其中是延迟阶跃函数：

实验结果

本文使用多跳推理数据集 HotpotQA，并在其基础上构建了一个挑战集，具体的构建方式为排除了那些单段 QA 模型能够预测正确答案的数据，因为这样的预测一定是通过了推理捷径。本文研究以下三个问题来评估他们提出的方法的有效性：

RQ1：本文为多跳 QA 任务提出的方法有多有效？

主要的结果如上表所示。(1) 由于当输入为单个段落时，证据是不充足的，此时模型被迫走捷径，因此对比 O-I 和基线 B-I，本模型的较低性能表明了 B-I 学习了捷径，而本模型更少地利用捷径。当输入在至少一个候选段落上拥有所有证据 (paired-paragraph)，O-II 优于 B-II。（2）O-III 删除了不相关的句子，只将选择的证据作为输入，可以看到将原始集和挑战集的 F1 分数都提高了，证明了证据选择的这种噪声过滤效果的有效性。（3）C-I (Asai et al., 2019) 使用推理路径的外部知识，将本文的方法与其相结合，可以提高其性能，说明了本文方法有助于补充收益。

RQ2：Interpreter 是否有效地提取了用于训练的伪证据标注？

Interpreter 在没有监督的情况下生成训练集的证据标签。为了评估其有效性，在句子级别将生成的伪证据与人工标注进行比较。使用基于检索的 AIR (Yadav et al., 2020) 作为基线模型，本文的 Interpreter 在 F1 和 recall 方面优于基线。此外， (b) 优于 (c) ，表明为有偏特征训练层会导致证据选择的性能下降，尽管 QA 的性能有所提高。

RQ3：本文方法是否避免在看不见的数据中推理捷径？

为了表明模型避免了对看不见的数据进行推理捷径，分析了模型在证据正集和负集上的置信度分布。

理想情况下，在图 (a) 中，的曲线下面积应随着 O1 的追求而减少，沿蓝色箭头移动；而的面积应随着 O2 增加，如红色箭头所示。从图 (c) 中可见，完整模型遵循了蓝色和红色箭头的两个方向，这表明本文的模型同时满足 O1 和 O2。

论文动机

机器阅读理解（MRC）是自然语言处理中的一项关键任务，并取得了显着的进步。然而，大多数神经 MRC 模型仍然远非健壮，无法在实际应用中很好地泛化。为了全面验证MRC模型的鲁棒性和泛化性，本文创建了一个真实世界的中文数据集—— ，从过度敏感、过度稳定和泛化这三个方面评估 MRC 模型。

方法

数据集建立在数据集之上，后者是一个大规模的中文 MRC 数据集，所有问题均由百度搜索的真实用户发出，并从搜索结果中收集文档级上下文。从中选择实体问题和段落级上下文，进一步让众包工作者来注释以问题和段落级上下文为条件的答案文本。此外，随机选择 10% 的标注数据并由语言专家审查，以此来确保数据质量，直到随机选择的数据的准确率高于95%。此外，包含一个挑战测试集来评估 MRC 模型的鲁棒性和泛化性，其包括过度敏感集、过度稳定集和泛化集三个子集。

过度敏感集 Over-sensitivity Subset

过度敏感表示 MRC 模型对重新表述的问题会给出不同的答案，即意味着模型对原始问题与其重述问题之间的差异过于敏感。以下给出了一个示例：

对于每个问题，使用paraphrase retrival工具包来获得多个重述问题。然后，用替换，并保持原始上下文和答案不变，构成model-independent的新实例。此外，还采用model-dependent的方式来收集实例，具体来说，使用重述实例来攻击基于 ERNIE (Sun et al., 2019) 和 RoBERTa (Liu et al., 2019) 的 MRC 模型，如果其中一个模型给出了与原始问题的预测答案不同的预测，就采用该实例，否则将其丢弃。

过度稳定集 Over-stability Subset

过度稳定意味着模型可能会陷入与问题有很多相同词的陷阱文本（trap span）中，并从陷阱文本中提取出错误的答案，这种失败可能是由于模型过度依赖于没有真正语言理解的虚假词汇模式。以下给出了一个示例：

首先，使用命名实体识别器来识别段落中的所有命名实体及其实体类型，如果存在与答案相同类型的非答案命名实体，就保留该实例。然后，如果语言专家认为包含不包含的陷阱文本，就让他们标注一个新问题并给出新的答案，其中与不包含的陷阱文本具有高度的词汇重叠，和有相同的命名实体类型。将每个候选实例攻击基于 ERNIE 和 RoBERTa 的 MRC 模型，如果其中一个模型失败，则该候选实例将用于构建过度稳定子集。

泛化集 Generalization Subset

具有好的泛化能力的 MRC 模型在in-domain和out-of-domain数据上都具有良好的性能，否则就不那么有泛化性了。比如在下面的例子中，尽管BERT-base在大规模开放领域数据上得到了充分的训练，但它无法预测数学题的答案。

本数据集从两个垂直域中收集out-of-domain数据：(1) 教育：从百度搜索中收集教育问题和文档，并请众包工作人员进行标注1.2K高质量元组，主题包括数学、物理、化学、语言和文学。(2) 金融：根据 Fisch 等人 (2019)，利用最初设计用于 MRC 金融领域信息提取的数据集，获得了0.4K份财务报告。

实验结果

在实验中使用了三个基线模型，它们基于不同的预训练语言模型，包括 BERT-base (Devlin et al., 2019)、ERNIE1.0-base (Sun et al., 2019) 和 RoBERTa-large (Liu et al., 2019)。下面显示了开发集、测试集和挑战测试集的基线结果，以及挑战集中三个子集的具体结果。基线性能在域内测试集上接近人类性能，而在挑战测试集上基线性能和人类性能差得多，尤其是过度稳定子集和泛化子集。

（1）过度敏感集的讨论：

使用 F1 分数来衡量重述问题与原始问题的相似程度，较低的F1分数意味着原始问题中的许多单词已被改写。计算不同预测比率different prediction ratios (DPRs)，并画出了 DPRs 和 F1相似性之间的关系如下图，可以看到两者呈负相关，说明了问题改写得越多，MRC 模型越有可能产生不同的答案。

（2）过度稳定集的讨论：

检查了 MRC 模型性能（F1 分数）和问题-陷阱文本的F1相似性之间的关系，如下图所示，模型性能随着问题-陷阱相似度的增加而降低，说明当陷阱文本有许多和问题相同的单词时，MRC 模型更容易被误导。并且，base模型比大模型 (RoBERTa-large) 更过度稳定。

（3）泛化集的讨论：

下表显示了金融和教育领域的基线表现，可以观察到两个领域的表现都很差。此外，我们研究了基线模型在教育领域的表现。该分析结果表明，领域知识是影响 MRC 模型泛化能力的关键因素。

论文动机

在对抗性数据收集 ( adversarial data collection, ADC ) 中，人力与模型实时交互，试图生成导致错误预测的示例，希望在这些更具挑战性的数据集上训练的模型能够减少对表面模式的依赖，从而减少模型的脆弱性。然而，尽管 ADC 具有直观的吸引力，尚不清楚对抗性数据集的训练何时会产生更强大的模型。本文进行了一项针对问答的大规模对照研究，随机分配工人以（i）对抗性（models in the loop, ADC ) 或 (ii) 标准方式（without a model，standard data collection, SDC）来生成问题，然后在各种模型和数据集上评估QA模型的性能，进行定性分析，确定关键差异并为未来的研究提供指导。

方法

使用 BERT-large（Devlin 等人，2019）和 ELECTRA-large（Clark 等人，2020 年）模型作为循环中的对抗模型，并针对基于跨度 (span) 的问答对这些模型进行了微调。在问题收集过程中，每次向每个众包工作者展示一段简短的文章，要求他们构造 5 个问题并在文中标出答案。标注人员被随机分配以下列方式生成问题：（i）欺骗 BERT 基线（ADC）；(ii) 欺骗 ELECTRA 基线（ADC）；(iii) 循环中没有模型（SDC）。

对于每篇文章，假设成功欺骗模型的问题数量为，为每个模型各创建 3 个数据集：（i）精选那些成功欺骗了模型的个问题，构成BERT-fooled 和 ELECTRA-fooled；(ii) 从 ADC 数据随机选择个问题，无论它们是否成功地欺骗了模型，构成BERT-random 和 ELECTRA-random；(iii) 从 SDC 数据中随机选择个问题，构成BERT-SDC 和 ELECTRA-SDC。这样，共创建了 6 个数据集。

实验结果

基本结果

在构造的6个数据集上微调了BERT (Devlin et al., 2019)、RoBERTa (Liu et al., 2019) 和 ELECTRA (Clark et al., 2020) 模型，以测试其性能。另外，还将原始数据扩充到收集到的数据集中，然后对这些模型进行微调。结果如下表，可以看到：在所有 ADC 数据集上进行微调的模型在其保留测试集上的表现通常优于在 SDC 数据上训练的模型，例如，在BERT-fooled和BERT-random训练集上微调的BERT-large模型，比在SDC训练集上微调的BERT-large模型有更高的EM和F1分数。另外，所有模型在原始开发集上通常具有相当的性能。

对抗性数据的域外泛化

在另外三个以对抗性方式构建的数据集上评估这些微调的模型，这三个测试集在构建循环中分别使用了 BiDAF、BERT 和 RoBERTa 作为对抗模型。以 BERT-large 为例结果如下表所示，与先前的工作有相同的发现：在ADC数据上微调的模型通常都优于在 SDC 数据上微调的模型；但是，当原始数据被扩充到这些数据集后对各个模型进行微调时，差异不再显著。

3. MRQA的域外泛化

在12 个域外MRQA问答数据集上进一步评估这些微调的模型。以 BERT-large 为例，在其中10个数据集上，在 SDC 数据上进行微调比在 ADC 数据上微调更能显着提高性能（有更高的EM和F1分数）。有趣的是，与 SDC 相比，ADC 微调通常可以提高 DROP 的性能，这可能是因为 DROP 本身是以对抗性方式构建的。在 Natural Questions上，在 ADC 数据和 SDC 数据上进行微调的模型通常表现相当，这可能是因为用于构建 ADC 和 SDC 数据集的段落本身就来自NQ数据集。

关于对抗性过程与对抗性成功

我们注意到，在对抗性测试数据以及 MRQA 上，在 BERT-random 和 ELECTRA-random 上微调的模型通常分别优于在 BERT-fooled 和 ELECTRA-fooled 上微调的模型。这表明，ADC 过程本身（无论结果如何）比成功欺骗模型更能解释结果。此外，仅在 SDC 数据上微调的模型往往优于仅 ADC 微调的模型；然而，在数据增强之后，ADC 微调在比以前更多的数据集上实现了可比的性能，展示了数据增强之后的泛化，但需要注意的是，将 ADC 数据扩充到原始数据可能并不总是有帮助的。

5. 定性分析

随机抽样了每个数据集中的一些问题，对这些进行问题进行分类，通过结合各数据集的问题和答案的类型、以及各模型的性能表现，可以得到一些发现，这些发现可以帮助标注人员在之后有针对性地生成问题。比如，BERT 模型可以更好地回答与日期和人员（或组织）相关的问题，ELECTRA 模型可能更擅长识别有关日期或年份的答案，因此可以让标注人员尽量不要构造此类问题。再比如，对于BERT，ADC 比 SDC 有更大比例的问题被归类为需要数值推理，因此可以激励标注人员多构造需要数值推理的问题。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片，关注我呀，每天推送AI技术干货~

整理不易，还望给个在看！