论文阅读Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

利用段落检索和生成模型进行开放域问答

ACL 2021 论文地址
摘要：
开放域问答的生成模型已被证明具有竞争力，无需借助外部知识。虽然这种方法很有前途，但它需要使用具有数十亿个参数的模型，这些参数的训练和查询成本很高。在本文中，我们研究了这些模型从检索可能包含证据的文本段落中获益的程度。我们获得了自然问题和琐事QA开放基准测试的最新结果。有趣的是，我们观察到，当增加检索通道的数量时，该方法的性能显著提高。这证明序列到序列模型提供了一个灵活的框架，可以有效地聚合和组合来自多个段落的证据。

引言：
最近，几项工作表明，可以从基于大量数据训练的大规模语言模型中提取事实信息（Radford et al.，2019；Petroni et al.；2019；Jiang等人，2019年；Talmor等人，2019）。基于这一观察和自然语言处理模型预训练的进展，Roberts等人（2020）引入了一种用于开放域问答的生成模型。在不依赖外部知识的情况下，该方法在几个基准上获得了竞争性结果。然而，它需要包含数十亿个参数的模型，因为所有信息都需要存储在权重中。这使得查询和训练模型的成本很高。在本文中，我们研究了这种方法可以从访问外部知识源（如维基百科）中获益多少。

基于检索的方法以前被考虑在使用抽取模型的开放域问答的背景下（Chen等人，2017）。在这种情况下，系统首先检索支持文档，然后从这些文档中提取答案。已经考虑了不同的检索技术，使用基于TF/IDF的稀疏表示或使用密集嵌入（Guu等人，2020；Karpukhin等人，2020）。提取答案的模型通常基于上下文化的单词表示，如ELMo或BERT（Peters等人，2018；Devlin等人，2019），并预测跨度作为答案。当使用提取模型时，聚集和组合来自多个通道的证据并不简单，并且已经提出了多种技术来解决这一限制（Clark和Gardner，2018；Min等人，2019a）。

在本文中，我们探索了一种两全其美的简单方法，该方法基于开放领域问答生成建模和检索的令人兴奋的发展。该方法分两步进行，首先使用稀疏或密集的方法检索支撑通道表示。然后，序列到序列模型生成答案，除了问题之外，还将检索到的段落作为输入。虽然概念上很简单，但该方法在TriviaQA和NaturalQuestions基准测试中设置了最新的结果。特别是，我们表明，当检索到的段落数增加时，我们的方法的性能显著提高。我们认为，这是一个证据，证明与提取模型相比，生成模型善于将多个段落的证据结合起来。

相关工作：
开放域问答是回答一般域问题的任务，其中证据不作为系统的输入。尽管这是自然语言处理中长期存在的问题（V oorhees，1999），但在Chen等人的工作之后，这项任务最近重新引起了人们的兴趣。（2017）。在这个版本的问题中，学习系统可以得到强有力的监督，以与答案相对应的跨度的形式。Chen等人（2017）提出通过首先从维基百科检索支持文档，然后从检索到的文档中提取答案来解决问题。提出了不同的方法来解决这样的设置，即系统没有黄金跨度，但只有正确答案。Clark和Gardner（2018）提出在与答案相对应的所有跨度上使用全局归一化，随后将其应用于基于BERT的模型（Wang等人，2019）。Min等人（2019a）介绍了一种基于硬期望最大化的方法，以解决来自该设置的噪声监控。Wang等人（2018b）描述了一种使用置信度和覆盖率得分来汇总不同段落答案的技术。

文章检索是开放域问答中的一个重要步骤，也是改进QA系统的一个积极研究领域。最初，基于TF/IDF的稀疏表示用于检索支持文档（Chen等人，2017）。Lee等人（2018）引入了一种基于BiLSTM的监督学习方法来重新排序段落，而Wang等人（2018a）使用强化学习训练了一个排序系统。改进QA系统检索步骤的第二种方法是使用附加信息，如维基百科或维基数据图（Min等人，2019b；Asai等人，2020）。最近，多项研究表明，完全基于密集表示和近似最近邻的检索系统与传统方法相比具有竞争力。这种模型可以使用问答对形式的弱监督进行训练（Karpukhin等人，2020），或者使用完形填空任务和微调的端到端进行预训练（Guu等人，2020；Lee等人，2019）。

生成答案对于需要生成答案的数据集，如叙事QA（Kocisk`y等人，2018）、CoQA（Reddy等人，2019）或ELI5（Fan等人，2018），生成性问题回答在之前的工作中大多被考虑。这些数据集的生成方式与支持文档中的跨度不一致，因此需要抽象模型。Raffel等人（2020）表明，生成模型在阅读理解任务中具有竞争力，如SQuAD（Rajpurkar等人，2016），其中答案是跨度。Roberts等人。（2020）建议在不使用额外知识的情况下，使用大型预训练生成模型进行开放域问答。与我们的工作最接近的是，Min等人（2020）和Lewis等人（2020b）引入了用于开放域问答的检索增强生成模型。我们的方法与这些作品的不同之处在于生成模型如何处理检索到的段落。这允许扩展到大量文档，并从大量证据中获益。

方法：
检索器 对于支持通道的检索，我们考虑了两种方法：BM25（Robertson等人，1995）和DPR（Karpukhin等人，2020）。在BM25中，段落被表示为单词包，排名函数基于术语和反向文档频率。我们使用默认参数的Apache Lucene1实现，并使用SpaCy标记问题和段落。2在DPR中，段落和问题表示为密集向量表示，使用两个BERT网络计算。排名函数是查询和段落表示之间的点积。使用FAISS库的近似最近邻居进行检索。

阅读器 我们的开放域QA生成模型基于序列对序列网络，基于无监督数据（如T5或BART）进行预训练（Raffel等人，2020；Lewis等人，2020a）。该模型将问题以及支持段落作为输入，并生成答案。更准确地说，每个检索到的段落及其标题都与问题相连，并由编码器独立于其他段落进行处理。我们在每个段落的问题、标题和文本之前添加特殊标记问题：、标题：和上下文：。最后，解码器执行在所有检索到的段落的结果表示的连接上。因此，该模型仅在解码器中执行证据融合，我们将其称为解码器中的融合。
通过在编码器中独立处理段落，但在解码器中联合处理段落，该方法不同于Min等人（2020）和Lewis等人（2020b）。在编码器中独立处理段落允许扩展到大量上下文，因为它一次只在一个上下文上执行自我关注。这意味着模型的计算时间随通道数线性增长，而不是二次增长。另一方面，在解码器中联合处理段落允许更好地聚合来自多个段落的证据。

总结
在本文中，我们研究了一种简单的开放域问答方法，该方法依赖于在用生成模型处理支持段落之前检索支持段落。我们表明，虽然概念简单，但这种方法与现有方法相比具有竞争力，并且它可以很好地扩展检索到的段落数。在未来的工作中，我们计划使该模型更有效，特别是当扩展到大量支撑通道时。我们还计划在我们的模型中集成检索，并端到端地学习整个系统。

论文阅读Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering相关推荐

VideoQA论文阅读笔记——Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering
论文:Heterogeneous Memory Enhanced Multimodal Attention Model for VQA 来源:CVPR2019 作者:京东研究院源码: Github ...
论文阅读：Generation-Augmented Retrieval for Open-Domain Question Answering
论文阅读:Generation-Augmented Retrieval for Open-Domain Question Answering 来源:ACL 2021 下载地址:https://arxi ...
论文阅读 [TPAMI-2022] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement
论文阅读 [TPAMI-2022] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement 论文搜索 ...
PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text 论文笔记
PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text 2019年,E ...
论文翻译：《Improved Neural Relation Detection for Knowledge Base Question Answering》
该论文于2017年发表在ACL,主要讲了智能问答在sq和wq两个数据集上的性能提升,本人研究生方向为这个,故翻译此论文,希望对大家有用. 论文地址:Improved Neural Relation D ...
【论文】VQA：Learning Conditioned Graph Structures for Interpretable Visual Question Answering
[论文]VQA:学习可解释的可视问题解答的条件图结构目录 [论文]VQA:学习可解释的可视问题解答的条件图结构摘要一.模型结构图二.Computing model inputs 三.Grap ...
论文阅读笔记：Latent Intention Dialogue Models
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言 Abstract Introduction Latent Intention Dialogu ...
[论文阅读] 《Compiling ONNX Neural Network Models Using MLIR》
文章目录 <Compiling ONNX Neural Network Models Using MLIR> 要解决的问题名字由来解决方法 <Compiling ONNX Neu ...
论文阅读：Joint Discriminative and Generative Learning for Person Re-identification
pdf: Joint Discriminative and Generative Learning for Person Re-identification github: https://githu ...

论文阅读Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

利用段落检索和生成模型进行开放域问答

论文阅读Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering相关推荐

最新文章

热门文章