Social IQA：Commonsense Reasoning about Social Interactions

EMNLP 2019.9

论文及数据：https://maartensap.github.io/social-iqa/
参考代码：https://github.com/huggingface/transformers

概览

介绍了Social IQA，第一个面向社会情况常识推理的大规模基准，包含38000个覆盖日常情形中社交情感和智慧的多选题。（涵盖了关于在情境中描述人们的行为的各种类型的推断）

比如：Q：乔丹想告诉特雷西一个秘密，所以乔丹向特雷西靠近，为什么乔丹这么做？

A：为了保证别人听不到。

通过众包，收集常识性问题以及有关社交互动的正确和错误答案；设计新的框架：通过要求工作人员为不同但相关的问题提供正确答案，来缓解错误答案的比例。

实验结果表明，对于基于预先训练的语言模型的现有问答模型，我们的基准测试具有挑战性，与人类表现差距20%。

值得注意的是，我们进一步将Social IQA建立为常识知识的迁移学习的资源，从而应用在多项常识推理任务上，取得比原来的最好效果更好的成绩。（比如Winograd Schemas，COPA）。

介绍

多选题分类：关于动机解释的，关于接下来发生什么事情，正常情感反应。

（正确回答问题需要对动机，情绪反应，或可能的前后动作）

（wants, reactions, descriptions, motivations, needs, effects；但实际上，社交IQA中，问题多集中在某人之后的感受和接下来可能做什么有关)

书面语料库中知识的偏差限制了可以学习的常识知识的范围。

基于AI系统，此数据集仍然具有挑战性，最佳性能基准达到64.5%（bert-large）。

模型面临着明显与观察到的上下文有关的问题，在三个竞争选择中可以找到正确的答案。

根据设计，这些问题需要对情境的社会原因和影响进行推理，符合AI助手与人类用户交互所需的智能类型。

（比如知道老人跌倒了要扶起来）

（与脚本事件预测区别在于问答类型的丰富，选项的减少，关注重点–从环到背景常识知识的改变）

这些推断的进行能够让我们成为社交场合的专家，并且心智论，对信念、动机进行推理的能力和理解其他人的需求密切相关。

赋予这种类型的智能机器是AI长期以来难以实现的目标。

ATOMIC

作为任务创建的起点，借鉴了ATOMIC的社会常识知识去播种我们的情景和问答类型。ATOMIC是一个大型知识图，其中包含有关24k短事件的起因和结果的推论知识。

创建数据库

事件定义

为了涵盖各种社会情况，使用ATOMIC的基本事件作为上下文创建的提示。作为预处理步骤，我们运行MTurk任务：要求工作人员将通过添加名称，修复潜在的语法错误以及填写占位符，将ATOMIC事件变成一个句子。

（一个事件的标注花了0.35美元）

上下文、问题及答案创建

运行一个任务，其中注释者创建完整的上下文问题-答案三元组。自动生成覆盖ATOMIC的9大常识推理维度的问题示例。使用事件句子和推理问题提示众包者，以使其成为更详细的上下文，以及如果需要提高的个性化的问题的编辑版本，并且还要求工人提供两个可能的正确答案。

众包特殊规则

除了正确答案外，还会收集四个正确答案选项，其中我们会过滤两个选项。为了创建对模型不利但对人类容易的不正确选项，我们使用两种不同的方法收集。专门设计这两种方法是为了避免注释伪像的实体类型不同，从而使模型更难以依靠数据偏差。我们集成和过滤答案选项，并通过人工评估任务验证最终的质量检查元组。

手写错误答案

第一种方法涉及得到需要对上下文进行推理的手写不正确答案：这些答案在主题、长度和样式方面都与正确答案类似，但实际上是错误的。其中的两个答案是在同一MTurk任务期间与原始上下文，问题和正确答案一起收集的。我们将这些负面回答称为手写的错误答案。

问题转换答案（QSA）

我们这样做是为了避免在候选答案中出现认知偏差和注释伪影，例如由于撰写错误答案或否定词而引起的认知偏差和注释伪影。

在此众包任务中，我们提供与原始问题相同的上下文，以及从不同但相似的ATOMIC维度自动生成的问题，并要求工人写出两个正确答案。

通过包含对相同上下文的不同问题的答案，我们确保这些对抗性回答具有正确答案的风格特征，并且与上下文主题密切相关，同时仍然是错误的，从而使模型难以简单地执行模式匹配。

创建QA组

作为流程的最后一步，我们将数据汇总为三项多项选择题。根据Zellers等人的启发，对于由众包工作者贡献的每个创建的情境问题对，我们选择一个随机的正确答案和最少包含正确答案的错误答案。

多次核实表决；应用了轻量级的对抗过滤器，通过使用深度样式分类器来删除开发和测试集上更简单的示例，从而使任务更具挑战性。

为了获得人类的绩效，运行了一项单独的任务，要求三名新员工从900个开发人员的随机子集中选择正确答案。900个测试示例，这些子集上的人类绩效分别是87%和84%。

结论

介绍了Social IQA，这是社会常识的第一个大型基准。社交IQA由38k个多项选择题组成，涵盖了有关在情境中描述人们的行为的各种推断。

设计了一个用于收集质量检查对的众包框架，可通过对抗性问题切换方法来减少否定答案的文物。尽管人类的性能接近90%，但基于大型预训练语言模型的计算方法只能达到65%的精度，这表明这些社会推理仍然是AI系统的挑战。

除了提供新的基准外，还演示了如何将学习从Social IQA转移到其他常识性挑战，可以如何产生重大改进，在COPA和Winograd Schema Challenge数据集上均获得最新的最新性能。