AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

论文标题：

Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction

论文作者：

李东方，户保田，陈清财，徐土杰，陶靖枞，张宇楠，鲍建竹，梁斌，孙婧伊，张义策，杨敏，徐睿峰

论文链接：

https://arxiv.org/abs/2112.10424

代码链接：

https://github.com/crazyofapple/AT-BMC

论文简介

神经网络已经证明了它们在文本分类任务上的卓越预测能力，特别是结合基于预训练的语言模型时。然而，与逻辑回归和决策树等传统机器学习方法相比，它们更像是一个黑盒。众所周知，要理解神经网络模型产生特定预测的原因是很困难的。一种实用的方法是从输入中提取预测的证据（rationales）。证据可以被定义为文本片段或输入文本的子集。其假设是，仅从证据中就可以做出正确的预测。换句话说，证据应该足以支持模型的预测。我们的工作也属于这个范围，其目标是通过提取与预测密切相关的证据来实现更好的预测性能和模型的可解释性。

以前的工作提出使用流水线（pipeline）的方法，任务预测分两步进行：解释阶段和随后的预测阶段。任务的挑战是如何在提取证据的条件下达到优异的分类表现。大多数采用这种框架的方法往往只依赖任务标签，他们从解释阶段的输入中抽取证据。例如，这些模型通过提出基于强化学习方法和重参数化技术的优化程序来模拟难以解决的采样步骤，这可能导致模型对超参数敏感，而且需要复杂的训练过程。

相反，我们对分类似然和输入实例的证据似然同时进行优化。虽然这是一个相对直接的优化解释阶段模型的方法，但这项任务至少有两个挑战。首先，以前的工作容易受到不同类型的对抗性攻击。例如，如表 1 所示，一个分类器在真实标签保持不变的对抗下受到了影响。如果在输入中加入小的扰动会修改模型的预测，我们就不能相信和解释模型的输出。

我们通过使用鲁棒性测试进一步分析现有的方法遭受的文本攻击，该测试对训练好的分类模型进行模型无关的攻击。其次，明确的边界信息被忽略了，导致不准确的提取。例如，“interesting”和 “inspiring”是文本 “this film is interesting and inspiring.”证据的边界，而 “and ”和“.”是一般的标记，其表示应与情感词不同。此外，使用证据来训练解释阶段的模型并不用考虑来自任务的监督信号。

表1: 对抗攻击的例子。其中标签发生改变，而证据文本不变

为了解决这些挑战，我们提出了一个联合分类和证据提取框架 AT-BMC，其中任务预测和证据提取是通过混合对抗训练（AT）和边界匹配约束（BMC）联合学习的。首先，我们在离散文本空间和嵌入空间中添加扰动，以提高模型的泛化和稳健性。一方面，我们在词的层面上产生对抗性的例子，同时保持证据不变。扰动也保持了预测的不变。另一方面，本文提出的嵌入空间的对抗性训练在计算效率和训练平稳性方面上比标准对抗训练更加完善。

其次，我们通过对边界位置的建模来考虑匹配约束，这使得模型能够进一步关注边界相关的区域。边界约束的主要思想是使序列标签模型在定位实体时考虑边界信息。通过将预测的合理片段的起始索引与相应的结束索引相匹配，全局序列标签信息与局部区域感知信息相融合。此外，我们通过标签嵌入使提取模型利用分类的结果（建立两者的关联）。

我们在两个基准数据集（即 Movie Review 和 MultiRC）上进行了实验。实验结果表明，AT-BMC 在分类和证据提取方面大幅度超过了基线。鲁棒性分析进一步表明，AT-BMC 可以有效地提高模型的鲁棒性，在更强的对抗攻击下，攻击成功率从 96% 下降到 27%。我们的代码已开源。

可解释与对抗鲁棒性的相关工作

之前的工作表明，神经网络很容易被攻击，这自然带来了一个问题：是否有必要应用可解释性技术，来解释模型的预测行为是否会受到攻击的影响。之前的一些工作从经验上观察到，在计算机视觉领域中，鲁棒的模型可以更容易解释。而尽管最近的一些研究专注于将可解释性和对抗的鲁棒性联系起来，但现在并没有模型明确声明同时具备这两种特性。另一方面，我们的目标是专注于理解文本分类任务中两者之间的联系，我们希望它能为自然语言处理任务中此类方法的未来发展带来启示。

任务定义

本文的目的是设计一个能够产生准确预测的模型，并提供密切相关的提取性片段（即支持性证据）作为预测的潜在原因。以情感分类为例，对于 “titanic is so close to being the perfect movie...”这个文本，它的预测标签是正面的，而这个预测的证据之一是 “titanic is so close to being the perfect movie...”。因此，带有证据提取的文本分类可以被形式化为：给定词序列单词输入 , 其中是序列长度，代表是第 i 个词。我们的目标是推断出任务的标签 , 并且对每个词分配一个 0/1 的标签，代表是否是证据的一部分。对应的参照标签表示为，人类标记的证据表示为，两者都用于训练。在这里，证据是词的序列，因此一个潜在的证据是输入序列的一个子序列。值得注意的是，一个文本样本可能包含多个不重叠的子序列作为证据。

整体框架

我们的基本框架遵循多任务学习（MTL），应用在这两个任务：（1）证据提取和（2）实际预测任务。我们采用 MTL 的共享编码器结构，两个任务共享相同的编码器，但是解码器不同。如图 1 所示，AT-BMC 包含以下 4 个部分：

(a) Prediction Network：根据输入文本进行分类预测；

(b) explanation generation network：根据输入文本和预测的分类标签使用 CRF 层解码器抽取证据；

(d) 边界匹配约束（Boundary Constraint）：用 start、end 双指针做边界限制来促进模型更准确地定位证据边界。

图1: 混合对抗训练和边界匹配约束的联合分类和证据提取 AT-BMC 的总体架构

混合对抗训练

由于对抗性攻击的搜索空间很大，而标记的证据有限，我们对有证据的样本进行基于离散对抗性攻击的数据增强。通过引入现有样本的词级别的扰动版本，我们可以递归地重复使用这种扩增方法，以显著扩大训练数据集。为了简单起见，这里的验证只考虑为每个样本增加一个新的编辑文本。此外，考虑到证据的标签保留，扰动只包括那些在证据之外的句子部分。除了直接对输入文本进行扰动外，我们还利用在嵌入空间上操作的对抗性训练作为有效的正则化，以改善共享编码器的泛化，减少鲁棒性错误。

与标准训练相比，K 步 PGD 需要通过网络进行 K 次前向-后向传播，这在计算上是很昂贵的。此外，K 步之后只有最后一步的扰动用于模型参数更新。我们遵循 FreeLB 中的自由对抗训练框架，进行多次 PGD 迭代来构建对抗嵌入，并在每次迭代中迭代出累积参数梯度。之后，通过虚拟创建一个采样小批次，利用累积梯度有效地逐一更新模型参数 θ。我们在算法 1 中提供了嵌入空间的对抗性训练的细节。

算法1: 嵌入空间对抗训练算法

边界匹配约束

在对于证据提取，CRF 解码器可以捕获开始/结束的边界。由于 CRF 在给定观察序列特征的情况下学习标签序列的条件概率，因此可以将其目标函数视为以观察 X 为条件的最大对数似然目标函数。但是，CRF 存在生成非法标签序列的局限性，因为它鼓励合理的标签序列，而对于不合理的过渡惩罚较低。因此，我们使用边界约束来鼓励它在定位边界时更加准确。边界约束的基本思想是将证据文本的预测起始索引与其对应的结束索引匹配。

文本分类和证据抽取的性能比较：如表 2 所示，我们的模型在两个数据集上都比以前的模型有所提高。在证据提取任务中，AT-BMC（BERT-base）和 AT-BMC（RoBERTa-large）在电影评论数据集上比以前的模型提高了 4.3% 和 13.3 % F1。此外，在 MultiRC 数据集上，我们的方法也将 F1 提高了 3.3% 和 10.8%。另一方面，AT-BMC（BERT-base）在准确性方面分别提高了 0.8% 和 1.3%，这可能主要来自两个方面：一个是多任务学习，另一个是对抗性训练。

表2：两个文本分类数据集任务性能和证据抽取表现的对比

在不同攻击方法下模型的鲁棒性：我们没有用可解释性稳健性来衡量稳健性，在这种情况下，证据应该对输入中的小扰动不变。我们考虑了三种不同的攻击方法（即 TextFooler、TextBugger 和 PWWS）来测试稳健性。在测试中，我们关注的是攻击的成功率。TextFooler 和 TextBugger 使用混合的方法（如单词嵌入距离、部分 Pos tag 标签匹配），并设计了一个单词替换机制来攻击现有模型；PWWS 使用单词重要性排名来替换部分句子，其中单词突出性和同义词交换分数被用来计算单词重要性。

如表 3 所示，文章提出的模型在不同的攻击强度下始终优于基准方法。总的来说，在多种攻击方法中，AT-BMC 在所有指标上都取得了最好的表现。值得注意的是，在 PWWS 攻击下，AT-BMC 以 69.75% 的成功率大大超过了基线。我们将此归功于 AT-BMC 通过对抗性训练获得的通用性。有趣的是，从第二栏的结果来看，使用联合框架似乎也能提高该领域的通用性和稳健性。我们还记录了被替换为攻击的单词的百分比，作为平均单词修改率。我们的方法需要更多的修改攻击查询，而且在所有的攻击下都有更高的词修改率。这表明该模型更难被攻击，因此需要更多的词被替换。

在图 2 中，我们比较了不同方法在验证集下的评估曲线。相对于其他没有进行对抗性训练和边界匹配约束的方法，我们的方法的变化幅度要小得多，而且随着训练时间的变化，它逐渐收敛。这说明我们的方法在训练过程中强化了模型在验证集上的鲁棒性，从而使其在训练中更加稳定，方差更小，从而缓解了现有方法中的超参数敏感性和高方差。

表3：在三种攻击方法下的分类性能对比

图2：Movie Review的验证集上F1曲线

有限证据标注下模型的表现：我们的方法也可以应用在只有有限的注释例子的情况下。如图 3 所示，我们比较了训练集中不同比例的人类标记的证据的模型的性能。我们发现，当只有 5% 的带有标注信号的例子时，模型在测试集上的提取精度达到了 40% 以上。随着这些标记实例比例的增加，模型的性能也随之提高。由于这些标注的人工标注是耗时耗力的，这可能意味着我们的方法可以在没有很多人工标注的情况下稳定地生成合理的解释。

图3：不同攻击策略下的节点分类性能

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。