摘要

在本文中，我们提出了一种新的可配置框架，可以自动为开放领域完型填空类型的多项选择题生成若干选项。该框架包含一个通用知识库，以高效地构建一个小型的选项候选集，还包含一个特征丰富的 learning-to-rank 模型，以选择合理和可靠的选项。在涉及四个领域的新数据集上的实验结果表明，我们的框架在自动评估和人类评估上都产生了优于先前方法的选项。这个数据集还可以在将来用作选项生成研究的基准。

1.介绍

　　完型填空类型的多项选择问题（MCQ）是一种用于评估语言学习者熟练程度的常见锻炼形式，经常在家庭作业和在线测试中出现。图1显示了一种完型填空类型的MCQ，其通常包括：具有待补全空格的问题主干，正确的答案和用于分散测试的多种错误答案。尽管对该类型问题的需求量很高，但这种MCQ的人工构建对教育工作者的非常耗时，这就需要尽可能多的从可利用原始文本中自动生成练习语料，以便在人工少量校准后就可生正式用于测验。
　　选项生成，旨在给定问题主干，来生成正确答案的可选替代项（即，distractors），这是构建完型填空类型MCQ的关键部分。然而，这不仅耗时，而且在没有丰富的语言教育经验的情况下是无法生成合适的选项。
　　语言教育学中的文献通常建议需要基于两个标准来设计选项：合理性和可靠性。对于合理性，是指选项应该与正确答案语义相关，且与问题上下文连贯，以充分考察学习者的熟练程度。对于可靠性，是指当将选项填到主干的空白区域会导致逻辑不正确或不一致的陈述。
　　自动生成选项被作为完型填空类型的多项选择问题（MCQ）构建的一部分来研究。然而，这些方法通常首先假设给定问题的特定领域这一先验知识（例如，科学），然后使用相应领域特定的词汇作为候选选项集，再由各种无监督的相似性启发式方法或有监督机器学习模型来排名。由于识别每个问题的具体领域并准备大规模的领域特定词汇，需要大量的人工劳动力，因此这种基于语料库的方法不能轻易应用于现实情况。
　　另一个问题是先前的方法主要关注去选择具有合理性的选项，而很少关注可靠性检查以确保所生成的选项在逻辑上是不正确的。尽管早期的方法做过一些尝试，但它们都在后处理步骤中去过滤由不同预定义过滤器（例如依存解析树中的角色）拒绝的候选选项，这可能会排除图1中像DNA这样的有用的选项。
　　在本文中，我们为开放领域中英语完型填空类型MCQ，提出了一种可配置的选项生成框架。它主要由两个部分组成：（1）上下文相关的候选集生成器，其基于由题干和答案组成的上下文信息，从通用知识库中构建一个小的候选选项集合；（2）learning-to-rank模型，能同时将可靠性检查和合理性衡量纳入考虑。通过使用结构化的人类设计的通用知识库和基于答案的上下相关概念，我们能够有效提取出语义相关的候选选项集合，而无需领域相关的词汇。这些候选选项通过排名模型进一步重排序，该模型具有精心设计的特征来控制合理性和可靠性之间的平衡。
　　以前的DG方法要么是用单一的人类标注，或者在特定领域的数据集上进行评估。据我们所知，DG没有开源的基准数据集来全面评估模型性能。我们构建了跨领域的完型填空类型的MCQ数据集，涵盖科学，日常，词汇和常识，可以用作DG未来研究的基准。我们进一步调查了该框架的各种实例化。
　　本文的贡献主要有三个方面：

我们构建和开源了一个多样化的benchmark数据集，以对选项生成模型进行训练和评估；
我们为开放领域完型填空类型MCQ提出了一个可配置的选项生成框架，该框架不需要特定领域的词汇，并能够同时考虑选项的合理性和可靠性；
我们进行全面的实验来评估和分析我们框架的各种实例化，并表明它在自动排名测试（约2％F1得分）和人类评估上始终优于先前的方法。

2.框架

　　如图2所示，我们的框架包括两个组件：Candidate Set Generator（CSG）和 Distractor Selector（DS）。第一个组件CSG从通用知识库（KB）中抽取和正确答案语义相似的候选选项。第二个组件DS，使用一种特征丰富的排名模型，根据对语法一致性和可靠性的更细粒度的评估重排名这些候选选项。

2.1 Task Formulation

正式地，给定一个题干 $q$ 和正确答案 $a$ ，选项生成的任务是基于一组【选项-分数】对 $D=\{(d_i,s_i)\},1≤i≤n$ ，生成 $n$ 个最合适的（即，满足合理性和可靠性的要求）选项 $d_i$ （以 $s_i$ 降序排序）。

2.2 Candidate Set Generator (CSG)

对于开放领域的完型填空类型MCQ，所提出的CSG能明确利用知识库（例如，Probase，Wordnet）中的单词或短语来作为选项，这些单词或短语作为结点存储，并链接到一个公共父节点（稍后将其称为概念 $c$ ）。与早期方法中枚举一个大型领域特定的词表中的所有单词不同，知识库的这种分层结构允许我们仅考虑一个小的和正确答案语义相关的概念 $c$ ，并从中抽取候选选项。
　　然而，正确答案的具体含义因题干的不同会发生变化。例如，给定一个句子：“These survivors managed to swim to the bank”，其中是bank正确答案，我们想生成像bay这样的候选选项，而不是更常用的银行相关的术语。
　　受上下文相关的概念化的启发，我们利用概率主题模型，即LDA，来发现上下文的潜在主题分布以及概念集 $C$ 中所有概念的主题分布。以题干 $q$ 为条件，正确答案 $a$ 属于概念 $c$ 的后验概率 $p (c ∣ a, q)$ 由下式给出：
$p(c∣a,q)∝p(c∣a)∑k=1Kπa,qkγc(k)(1)p(c|a,q)\propto p(c|a)\sum^K_{k=1}\pi^{k}_{a,q}\gamma^{(k)}_c\tag{1}$
其中 $c$ 是概念， $πa,q\pi_{a,q}$ 是由题干和正确答案构成的完整句子的主题分布， $γ_c$ 表示概念 $c$ 的主题分布， $p (c ∣ a)$ 是 $a$ 属于 $c$ 所对应的具体知识库选择的先验概率， $K$ 是主题的总数。直观上，主题分布类似于完整句子的概念将比其他概念具有更高权重。在获得 $C$ 中所有概念的条件概率 $p (c ∣ a, q)$ 之后，通过ISA关系和这些概念的上下位关系（如图3所示），我们得到了概念 $c$ 中所包含实体 $d_i$ 的概率分布：
$pi=p(di∣a,q)∝∑c∈Cp(di∣c)p(c∣a,q)(2)p_i=p(d_i|a,q)\propto \sum_{c\in C}p(d_i|c)p(c|a,q)\tag{2}$
其中概率 $p (d ∣ c)$ 也称为 typicality。现有概率 $p (c ∣ a)$ 和典型 $p (d ∣ c)$ 在一些KBs（例如，Probase）上是现有的，而对于其他一些KBs（例如，WordNet）则没有，这需要我们的框架能够灵活地与各种的KBS结合使用，并以不同的方式进行定制，以计算这两个概率。
　　然后，我们去除题干中出现的候选，最后将概率最大的top-m个候选构建成一个候选选项集，即 $D_0=\{(d_1,p_1),(d_2,p_2),···,(d_m,p_m)\}$ 。

2.3 Distractor Selector (DS)

给定上一节构造的候选选项集 $D_0$ ，最终的n-best选项通过以下步骤产生。

2.3.1 Feature Extractor

给定一个三元组 $(q; a; d)$ ，其中 $q$ 是题干， $a$ 是正确答案， $d$ 是候选选项，我们的DS首先将其转换为特征向量 $f(q,a,d)∈R33f(q,a,d)∈\mathbb R^{33}$ ，其中特征定义如下：

Embedding Similarity： $q$ 与 $d$ 以及 $a$ 与 $d$ 之间的相似性是通过使用CBOW中的嵌入来进行余弦相似度计算得到的，这对于寻找语义相似的选项是有效的。我们使用单词嵌入的平均作为句子嵌入。
Contextual Embedding Similarity： $a$ 和 $d$ 之间的ELMO嵌入的余弦相似性。此特征与Embedding Similarity互补，因为Word2Vec仅捕获单词的静态混合语义，该特征在我们的实验中验证了其重要性。
Morphological Similarity：编辑距离，单词/字符长度差，单复数一致性， $a$ 和 $d$ 最长公共前缀/后缀/子序列的绝对和相对长度。这些特征测量形态相似性，对诸如缩写（例如，DNA和RNA）的样例有用。
POS Similarity：使用 $a$ 与 $d$ 的POS标签之间的Jaccard相似性。直觉是，一个良好的选项应该与正确的答案具有类似语义属性。
Frequency： $a$ 与 $d$ 的平均unigram频率。频率用来衡量单词难度级别。此特征能辅助模型选择具有类似难度的选项。
Compositional Similarity：字符级unigram集与 $a$ 和 $d$ 的Bigram集之间的Jaccard相似性。这种特征是因为选项可能与答案共享字符。
Web-search Score：此功能的详细信息在后面描述。

2.3.2 Ranker

Knowledge-Driven Distractor Generation for Cloze-Style Multiple Choice Questions翻译相关推荐

论文阅读笔记（二）：Bridging Video-text Retrieval with Multiple Choice Questions
文章目录前言一.Introduction 二.Method 1.双编码器结构 2.Multiple Choice Questions(MCQ) 3.目标函数 4.模型结构 4.1视频编码器 4.2 ...
Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response Generation
论文阅读:Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response Gener ...
《论文阅读》Commonsense Knowledge Aware Conversation Generation with Graph Attention
<论文阅读>Commonsense Knowledge Aware Conversation Generation with Graph Attention 简介论文试图解决什么问题? ...
【论文笔记】Commonsense Knowledge Aware Conversation Generation with Graph Attention
Commonsense Knowledge Aware Conversation Generation with Graph Attention 文章目录 Commonsense Knowledge ...
Java multiplechoice,雅思听力八大题型之Multiple Choice题型篇
雅思听力考试有8大题型,上海新航道雅思培训班会一一为大家分享,今天为大家带来的是Multiple Choice题型,一起来看看吧! 雅思听力八大题型之Multiple Choice题型篇 1.题型介绍 ...
Art Generation with Neural Style Transfer-v2
这是吴恩达老师深度学习课程第四课(卷积神经网络)第四周第二次的作业题目,不包含答案! Deep Learning & Art: Neural Style Transfer Welcome to ...
吴恩达深度学习课程deeplearning.ai课程作业：Class 4 Week 4 Art Generation with Neural Style Transfer
吴恩达deeplearning.ai课程作业,自己写的答案. 补充说明: 1. 评论中总有人问为什么直接复制这些notebook运行不了?请不要直接复制粘贴,不可能运行通过的,这个只是notebook ...
吴恩达深度学习4.4练习_Convolutional Neural Networks_Art Generation with Neural Style Transfer
转载自吴恩达老师深度学习课程作业notebook Deep Learning & Art: Neural Style Transfer Welcome to the second assign ...
Commonsense and Named Entity Aware Knowledge Grounded Dialogue Generation
摘要 motivation: 以外部知识为基础,在对话历史背景下解释语言模式,如省写.回指和共同引用,对对话的理解和生成至关重要. this paper: 在本文中,我们提出了一种新的开放域对话生成模 ...

Knowledge-Driven Distractor Generation for Cloze-Style Multiple Choice Questions翻译

摘要