论文阅读：A Semantic-based Method for Unsupervised Commonsense Question Answering

来源：ACL 2021

下载地址：https://arxiv.org/pdf/2105.14781v1.pdf

本文主要贡献：

提出了一种基于语义的问答模型（SEQA），用于在无监督环境中进行稳健的常识问答。
本文的方法不是直接对答案选择进行评分，而是首先生成一些可能的答案，然后通过考虑每个可能的答案与每个选择之间的语义相似性来选择正确的选择。
本文对四个常识性问答数据集进行了实验，其中 SEQA 与优秀的 baseline 相比取得了最佳性能。当受到 TextFooler 的同义词替换攻击时，本文的方法表现得更加稳健。

Abstract

无监督常识问答很有研究价值，因为它不依赖任何标记的任务数据。在现有工作中，一种流行的解决方案是使用预先训练的语言模型来直接根据问题或上下文对候选选择进行评分。

存在问题：然而，语言模型的这些分数很容易受到不相关因素的影响，例如词频、句子结构等。这些分散注意力的因素不仅可能误导模型选择错误的答案，还会使其对候选答案中的词汇扰动过于敏感。

在本文中，我们提出了一种新颖的基于语义的问答方法（SEQA），用于无监督常识问答。我们的方法不是直接对每个答案选择进行评分，而是首先使用生成模型（例如 GPT-2）生成一组似是而非的答案，然后通过考虑每个可能的答案和每个选择之间的语义相似性来使用这些可能的答案去选择一个正确的选择。

Introduction

预训练的语言模型已广泛用于常识性问答。对特定任务数据的预训练模型进行微调会产生许多最先进的结果。但是，这需要大量标记的任务数据。因此，在不依赖任何标记的下游任务数据的情况下研究无监督的常识性问答是至关重要的。在本文中，我们研究了无监督环境中的多项选择常识问答任务：给定一个问题和一组答案选择，需要一个模型来预测问题的最合理答案选择，但不使用有标记的任务数据。

许多现有的无监督方法通过使用语言模型对每个答案选择进行评分来解决这些任务，表 1 列出了几个典型的评分函数。然而，这些分数很容易受到词频、句子结构和其他因素的影响，这可能会误导模型并使现有方法对词汇扰动过度敏感。图 1 显示了两个示例。通过同义词替换或结构转换来解释正确的选择。在这些示例中，基线 (Pro-A) 对释义选择产生的分数要低得多，并选择了错误的选择。

表 1：三个现有的评分函数和我们的无监督常识问答方法。 Q是问题，A是选择。 A 是所有可能答案的集合，w(S|A) 是等式(5) 中定义的加权函数。 LM 指的是预训练的语言模型，例如 GPT-2 或 BERT。

图 1：常识问答的两个示例，其中基线 (Pro-A) 对词汇扰动过度敏感（SR 用于同义词替换，ST 用于句子结构转换）。 Pro-A 的分数和我们针对每个答案选择的方法显示在右栏中。带下划线的分数表示方法选择的答案选择。

由于现有方法很容易被词汇扰动等无关因素分散注意力，因此我们认为常识性问答方法应该关注答案的语义，并为同义选择分配相似的分数。为此，我们引入了一种新颖的基于语义的问答模型 SEQA，该模型旨在在无监督环境中稳健地选择多选常识问答中的正确答案。我们不是直接对答案选择进行评分，而是计算观察选择语义的概率。选择的语义分数可以通过将与选择具有相同语义含义的句子的生成概率相加来获得，其中句子被称为选择的支持者。然而，很难获得与选择具有完全相同语义的支持者，因此我们将语义分数重新制定为软版本，如后文所示。每个支持者都通过与答案选择的语义相似性来衡量，可以使用一些现成的模型来计算，例如 SentenceBERT。由于支持者及其权重取决于语义而不是答案选择的表面形式，因此可以很大程度上抑制干扰因素的影响。此外，同义选择很可能共享同一组支持者，因此他们的分数有望稳定接近。

Method

在本文中，我们专注于无监督的多项选择常识问答，其形式化如下：给定一个问题和一组选项，模型应该选择正确的选项：

其中 s 是指得分函数。

Motivation

在现有的无监督方法中，得分函数通常是根据语言模型得分来定义的。以Pro-A（表1）为例，它首先将问题转化为陈述：

Q: I saw my breath when I exhaled. What was the cause of this? ——> Rewrite: I saw my breath when I exhaled because ________

然后它以该语句为条件计算每个选择的生成概率。请注意，用于重写的模板不是本文的重点，因此我们直接使用以前工作的模板作为我们的方法和本文中的所有 baseline 。虽然可以成功，但语言模型分数会受到许多干扰因素的影响，例如词频和句子结构等。这些因素会在很大程度上扰乱分数功能，如图 1 所示。我们的目标是减轻这些分散注意力的因素的影响。因此，我们提出了一种用于无监督常识问答的新方法，该方法取得了更好的结果并且表现更稳健。

SEQA

SEQA 旨在预测答案选择 A 的语义分数。语义分数不是直接估计单个选择 A 的概率 P(A|Q)，而是关注概率 P(MA|Q)，其中 MA 表示 A 的语义。理想情况下，我们将 P(MA|Q) 分解为 A 支持者的条件概率的总和，其中支持者表示所有可能的答案具有完全相同的语义 MA。形式上，语义分数定义为

SA 是选择 A 的支持者集合，A（E下的）是所有可能答案的集合。 Ⅱ(S ∈ SA)是指示S是否是A的支持者的指示函数。为了获得支持者集SA，我们采用模型来提取句子级语义特征。理想情况下，指标函数定义为

其中 hA 是句子 A 的语义特征，如果 hS 和 hA 指向相同的方向，我们假设 S 和 A 在语义上完全相同。然而，Eq.(3) 使用 cos(hS，hA) 恰好等于 1 的硬约束，这可能过于严格而无法找到可接受的支持者。因此，我们将 Eq.(2) 重新表述为一个软版本：

其中等式（2）中的指示函数被软函数 w(S|A) 替换。为了模拟 Ⅱ(S ∈ SA)，w(S|A) 应满足三个要求： (1) w(S|A) 对于任何 S 和 A∈ [0，1] ； (2) w(S|A) = 1 如果 cos(hS, hA) = 1; (3) w(S|A) 随 cos(hS, hA) 单调增加。 w(S|A) 有几种不同的定义来满足这些要求。在本文中，w(S|A) 定义为：

T 是温度，Z(T) = exp(1/T) 是一个归一化项，使得 w(A|A) = 1。如果 T → 0, w(S|A) 退化为指标函数。如果 T > 0，w(S|A) 与特征空间中单位球面上的 von Mises-Fisher 分布有关，其中可接受的特征向量分布在平均方向 hA/||hA|| 周围。

由于在 A 中枚举所有可能的答案是困难的，我们将 Eq.(4) 转换为 PLM(S|Q) 的期望：

其中 S1,…,SK 是从 PLM(·|Q) 中采样的句子，K 是样本大小。 hA 和 hSi 可以从预训练模型中提取。从式（7）可以看出，语义分数 s(A|Q) 仅依赖于语义特征 hA，而与 A 的表面形式无关。因此，假设同义选择具有相似的语义特征，我们的方法将为同义选择产生相似的语义分数。

The Voting View of SEQA

我们将语义分数定义为支持者的条件概率的总和。然而，在等式（7）中，样本句子 S1,…, SK 不是 A 的支持者，因为它们在语义上可能与 A 不相似。为了解决这些差异，我们将样本句子命名为 S1,…, SK 作为选民，这是问题 Q 的合理答案。在本节中，我们将展示我们方法的另一种观点，其工作方式类似于选民投票选出正确选择的程序。

假设有两个候选选择 A1 和 A2，我们的方法是根据语义分数 s(A1|Q) 和 s(A2|Q) 找到正确的选择。根据方程（6），我们的方法可以分解为两个步骤：首先，对一些来自 PLM 的SK(·|Q)的选民S1,…,SK进行抽样。此步骤仅考虑问题 Q，而不考虑候选选项。其次，每个选民投票给具有语义相似性权重的选项。例如，Si 以 w(Si|Aj) 的权重为 Aj 投票。获得更多选票的候选选择将具有更高的语义分数，并被选为最终答案。

图 2 展示了 SEQA 在投票视图中的过程。尽管投票视图很直观，但前文中的公式提供了更多见解：（1）我们的方法逼近语义的概率，这是 SEQA 的理论基础。 (2) 我们的方法可以看作是 Pro-A 的扩展，因为 Pro-A 只计算单个句子的语言模型分数，而我们的方法计算一组支持者的语义分数。 (3) Eq.(4) 为投票权重函数 w(S|A) 的设计提供了指导，前面提到的三个要求。

图 2：投票视图中的 SEQA 流程。我们使用与先前工作相同的模板将疑问句改写为陈述句。然后使用 GPT-2 为选民 Si 生成一些可能的答案，以重写的问题为条件。选择和投票者通过 SentenceRoBERTa 编码以获得语义特征，hAj 和 hSi，然后用于计算投票权重w(Si|Aj)。选择具有最大分数 s(Aj|Q) 的选项作为答案。

Experiments

Datasets

我们对四个多项选择常识问答任务进行了实验，COPA (Roemmele et al., 2011)、StoryClozeTest (SCT) (Mostafazadeh et al., 2016)、SocialIQA (Sap et al., 2019b) 和 CosmosQA (Huang et al., 2019)。对于每个实例，只有一个选择是正确的。

Baselines

我们采用了五个强大的 baseline 。表 1 显示了其中的三个，Pro-A、Pro-Q 和 MI-QA。这三种方法中没有使用明确的辅助信息，而另外两个基线依赖于明确的信息补充。 CGA (Bosselut and Choi, 2019) 和 Self-Talk (Shwartz et al., 2020) 查询预先训练的语言模型（例如 GPT-2、COMET (Bosselut et al., 2019)）以获取相关知识，这构成了一部分的上下文。然后，与 Pro-A 类似，他们将选择的生成概率作为分数。

Experiment Settings

对于每种方法，我们尝试了不同的预训练语言模型，然后选择在每个数据集上最大限度地提高准确性的预训练 LM。表 2 中可以找到预训练 LM 选择的详细信息。

表 2：评估结果，包括攻击前的原始选择准确率、攻击后的准确率、攻击成功率、成功攻击中扰动词相对于原句长度的百分比、原词和复述选择之间的语义相似度。

Main Results

Accuracy

在所有方法中，SEQA 在所有数据集上取得了最好的性能。尤其是在 SCT 和 CosmosQA 上，SEQA 比最佳 baseline 高出 10 多分。可以推断，由于减少了干扰因素，语义分数有利于常识性问答。 Pro-Q 在 COPA 上的表现优于其他基线，这可能是因为它受到选择的统计偏差的影响较小。然而，Pro-Q 在另外三个数据集上失去了优势，因为它不适合处理长或复杂的上下文。

Robustness

为了测试同义词替换攻击下的鲁棒性，我们使用 TextFooler (Jin et al., 2020) 通过扰乱正确预测示例的正确选择来攻击这些方法。扰动词的百分比是指选择中的词在成功攻击中被替换的百分比。语义相似性是在释义选择和原始选择之间测量的。考虑到攻击成功率和攻击后的准确率，SEQA 比所有基线都更加稳健。具体来说，在所有数据集上，SEQA 上的攻击成功率至少比 Pro-A、CGA 和 Self-Talk 的攻击成功率低 39 个百分点。MI-QA 和 Pro-Q 旨在减少统计偏差对选择的影响，从而在一定程度上抵抗词汇扰动。即便如此，就所有数据集的攻击成功率而言，SEQA 明显低于 MI-QA 和 Pro-Q。一个观察结果是 CosmosQA 上 SEQA 的攻击成功率高于其他数据集上的攻击成功率。原因是 CosmosQA 中的上下文非常复杂，以至于 GPT-2 更难生成高质量的答案。如果有更强大的生成器，预计 SEQA 的鲁棒性会有进一步的提升。

Consistency Testing

常识性问答方法应该为同义选择分配接近的分数，为了验证 SEQA 更好地满足这一要求，我们在四个数据集上对所有方法进行了一致性测试。对于每个示例，方法的一致性测试分三个步骤进行： (1) 最初，示例有一个正确和几个错误的答案选择。我们从其他示例中随机抽取一些选择作为额外的错误选择。之后，示例将有 1 个正确选项和 19 个错误选项。(2) 利用常用的自动翻译服务百度翻译，将每个选择从英语翻译成中间语言，然后再回译成英语。在这个过程中，我们使用了三种中间语言，中文、西班牙文和俄文，因为这些语言的翻译质量比其他语言更好。结果，每个选择都伴随着三个同义选择。(3) 使用常识问答法计算每个选项及其同义选项的得分，然后根据得分对所有选项进行排序。由于这些方法的评分尺度不同，我们计算正确选择及其同义选择的等级的标准差。表 3 显示了排名的平均标准差。正如预期的那样，在所有数据集上，SEQA 的平均标准差远低于任何其他方法，这证实了 SEQA 为同义选择分配了更相似的等级和更接近的分数。我们还观察到，与其他 baseline 方法相比，MIQA 提供了相对稳定的预测。一个可能的解释是，归一化项 PLM(A) 有助于减轻词汇扰动的影响。

表 3：一致性测试，其中方法对 80 个选项进行排名，为每个示例找到 4 个正确选项。该指标是 4 个正确同义词选择的等级的标准差，平均超过 500 个示例。

Trends of Accuracy with Answer Length

答案长度也是一种分散注意力的因素，可能会误导 baseline 方法。为了探索答案长度在多大程度上影响方法的性能，我们根据正确选择的长度将 CosmosQA 的开发集分为四个子集。表 4 显示了 SEQA 和稳健基线 MI-QA 的结果。与 MI-QA 相比，随着答案长度的变化，SEQA 的性能更加稳定。原因在于，SEQA 侧重于语义信息，因此对这些干扰因素有更强的抵抗力。

表 4：CosmosQA 上 SEQA 和 MI-QA 的准确率与答案长度的趋势。

Ablation Study

表 5：不同温度下 SEQA 的攻前 (Bef) 和攻后 (Aft) 精度。

图 3：SCT 上不同样本大小的方法的攻击前 (a) 和攻击后准确度 (b)。Pro-A、CGA 和 Self-Talk 的攻击后准确率低于 5.0%，因此在 (b) 中省略。

表 6：SEQA 在不同定义的 w(Sj|A) COPA 测试集上的攻击前 (Bef) 和攻击后 (Aft) 精度。 α, β,T1,T2 是在 COPA 开发集上调整的超参数。

表 7：SEQA 在 COPA 上使用不同特征提取器和语言模型的准确度。平均 GloVe 表示句子中预训练的词嵌入（Pennington 等人，2014 年）的平均池化。

Analysis on the Quality of Voters

虽然 SEQA 的性能作为对选民质量的外在评估从 PLM(·|Q) 中采样的合理答案，但我们也对内在评估它感兴趣。我们从 COPA 抽取了 125 名选民。对于每个选民，我们向众包工作者提供原始问题，并询问他们：1）选民是否符合语法，不完全符合语法但可以理解，或完全无法理解，2）选民是否是对问题的合理答案，不是合理但相关，或完全不相关。

表 8 显示了人工评价选民的结果。分数 3/2/1 分别对应高、中、低质量。根据语法分数，97.6% 的投票者是语法或至少可以理解的，为此大多数投票者属于自然语言空间。在逻辑性上，40.8%的选民对问题的回答是合理的，这可能不是很令人满意

表 8：对选民质量的手动评估（由 GPT-2-xlarge 根据问题生成）。分数 3/2/1 分别对应语法和逻辑性方面的高、中和低质量。

Voting Weight Distribution

从曲线中，我们可以发现选民的几个属性：（1）选民倾向于正确选择而不是错误选择，其中正确选择的曲线始终高于错误选择的曲线。两条曲线之间的面积显示了语义分数s(AC|Q)-s(AW|Q)的差异，与底部曲线下的面积相比差距很大。 (2) 93.5% 的选民不强烈赞成任何选择 (|w(S|AC) − w(S|AW)| < 0.05)，表明它们在语义上与两个候选人选择无关。然而，表 8 显示 40.8% 的选民在逻辑上是合理的，因此许多选民是合理的，但与两个答案都无关。它表明一个问题可以有多个合理的答案，并且抽样的选民在语义上是不同的。 (3) 虽然只有 5.3% 的选民强烈支持正确的选择，但支持错误选择的选民 (1.2%) 要少得多。

为了帮助理解选民和选择之间的关系，表 9 提供了一个实例，其中包含选民及其对选择的投票权重。我们展示了四种类型的选民：支持正确的选择，支持错误的选择，逻辑上合理但不支持任何一个选择，以及不合理且与两个选择无关。我们可以看到，后两类选民几乎不会影响该方法的预测，因为他们的投票权重远小于前两类选民。

表 9：选民及其投票权重的示例。 AC是正确的选择，而AW是错误的。Si 指选民。

Conslusion

我们提出了一种基于语义的问答方法 SEQA，它可以在无监督的环境中更准确、更稳健地回答常识性问题。我们的方法不是直接对每个答案选择进行评分，而是关注观察选择语义的概率。从投票的角度来看，SEQA 首先生成一些可能的答案（选民），然后通过考虑每个选择与每个选民之间的语义相似性，利用它们投票给正确的选择。实验结果表明，SEQA 在四个数据集上取得了最好的性能，并且在受到 TextFooler 攻击时，它的鲁棒性明显优于所有 baseline 。

论文阅读：A Semantic-based Method for Unsupervised Commonsense Question Answering相关推荐

【VideoQA最新论文阅读】第一篇视频问答综述Video Question Answering: a Survey of Models and Datasets
Video Question Answering: a Survey of Models and Datasets 长文预警!!! p.s.此篇文章于2021年1月25日新鲜出炉,在Springer需 ...
VideoQA论文阅读笔记——TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering
论文: TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering 作者: 首尔国立大学来源: CVPR2017 源 ...
论文阅读-Retrieving and Reading : A ComprehensiveSurvey on Open-domain Question Answering
论文链接:https://arxiv.org/pdf/2101.00774.pdf 目录 Abstract 1 简介 2 OPENQA的发展 2.1 OpenQA的起源 2.2 OpenQA的传统架构 ...
【论文阅读】Attention Based Spatial-Temporal GCN...Traffic Flow Forecasting[基于注意力的时空图卷积网络交通流预测]（1）
[论文阅读]Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting[基于注 ...
【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering
分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录二.动机三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...
论文阅读：Semantic Aware Attention Based Deep Object Co-segmentation（ACCV2018）
协同分割论文:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018) 论文原文 code 目录 1.简介 2. ...
【论文阅读】An Effective Method of Weld Defect Detectionand Classification Based on Machine Vision
方法及概念: 混合高斯模型进行背景分割,提取缺陷区域检测的缺陷类型:焊缝熔合.焊接穿孔.冷焊点.伪缺陷(灰尘.防锈胶等混合物) 焊缝缺陷分类算法区分焊缝缺陷,区分算法为灰度值曲线算法焊缝特征:焊缝 ...
【论文阅读】FC-Net: A Method of Few-Shot Network Intrusion Detection Based on Meta-Learning Framework
文章目录 0. Abstract 1. Introduction 2. Problem Formulation 3. Network Traffic Representation (数据与其处理方式) ...
【论文阅读】Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift
Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift SUMMARY@ 2020 ...

论文阅读：A Semantic-based Method for Unsupervised Commonsense Question Answering

论文阅读：A Semantic-based Method for Unsupervised Commonsense Question Answering

论文阅读：A Semantic-based Method for Unsupervised Commonsense Question Answering相关推荐

最新文章

热门文章