卷友们好,我是rumor。

做了三年多的问答,我对这个领域真是又恨又爱。恨吧,互联网里的问答产品就是个锦上添花的东西,而且效果还上不去,一堆case等着我解。爱吧,我们NLP可是人工智能的掌上明珠,而问答又是NLP的尽头,多么fancy的任务啊。

还是选择相信吧

今天带大家一起学习丹琦女神和Scott大佬在ACL2020上主讲的Tutorial——Open-Domain Question Answering。开放域问答之所以重要,是因为它是搜索引擎的终极形态。而搜索引擎的重要性就不必多说了,需求量大,商业模式成熟,以搜索引擎为入口的应用养活了谷歌、百度和一系列垂搜大厂,占据了当今互联网的大半壁江山。要是掌握了这门技术,前途不可估量。

PPT&视频:https://github.com/danqi/acl2020-openqa-tutorial

丹琦女神这次的Tutorial,主要讲的是利用非结构化数据进行问答这一分支任务,也是当今场景最多的任务,毕竟结构化、半结构化数据有一定的获取成本。

从开放域问答兴起以来,可以分为以下四个阶段:

  • Pipeline:类似搜索引擎,分为Query理解、候选召回和答案抽取

  • Two-stage:对Pipeline进行简化,先用Retriever抽取候选,然后用Reader做阅读理解

  • End-to-end learning:用神经网络替换传统Retriever,尝试把Retriever和Reader一起训练

  • Retrieval-free models:不检索了,预训练都学会了,直接上模型就完了

下面我们就跟着女神的步伐,来看看这四类方法。

Pipeline

QA的研究从1960年左右就开始了,基本都是rule-based的方法,学者们通过大量人工定义的规则来进行query理解,然后从限定域数据库中寻找答案(那时的学者们可能不会知道,这种方法一直被沿用至今)。

1999年,信息检索领域的顶会TREC推出了QA Tracks,那时他们就开始意识到,搜索引擎的下一个形态就是问答。然而那时由于机器学习、算力的局限,主流方法还是跟搜索引擎类似,数据集也比较简单,都是用单实体作为答案(长了就抽不出来了)。

可以看2002年的冠军方案来体会一下Pipeline方法的复杂程度:

再之后,就是2011年,IBM Watson一举夺得Jeopardy问答竞赛的百万奖金。然而技术上还是没有太大进展,依旧是用Pipeline方法,任务形式也较为简单。

到了2013年,深度学习兴起,任务形式也开始发生变化,从Document层面的Macro-reading走向Passage层面的Micro-reading。出现了更偏向语义的阅读理解任务。以及更多形式的数据集:

Two-Stage

把问答整合成阅读理解任务的形式后,研究者们把Pipeline简化为了Retriever-Reader两步。最基本的解决方案可以参照2017年的DrQA,用TFIDF、BM25等同级方法召回合适的Document,再用神经网络作为Reader去标注合适的回答。

那接下来如何优化呢?除了把Reader替换为更复杂的网络外,还有几个点可以改进:

  • DrQA是从文档层面进行召回的,因此2019年的BERTserini[1]把文档切成segments,进行更精细的召回,同时用segment和答案片段的加权分数作为最终答案

  • 在预测时,不同段落中抽出的答案不方便做比较,因此2018[2]、19[3]年分别有工作尝试了Multi-passage训练,让一个batch内的段落进行交互,得到一个更好的span预测结果

  • 段落的重要性被忽略掉了,所以2018年的R^3[4]给召回的passage又加了一个强化学习的re-ranker

  • 目前的方法只对答案进行排序,而忽略了聚合,如果不同passage都抽出了同样的答案,可以用不同的方法进行汇总[5]

  • 开放域阅读理解的训练集很多都是远程监督来做的(只要passage包含答案就是正例),这样会忽略passage本身的合理性,也有工作探索这方面的改进[6]

Dense Retriever and End-to-end

上文介绍了Pipeline方法的改进思路,然而Retriever还处于远古时代。技术再往前一步,就是对Retriever进行优化。

事实上,在2019年之前,dense retriever的表现都弱于sparse retriever(例如用TFIDF表示的one-hot)。Retriever网络需要从成百上千万的文档中选出合适的,需要大量的语料和算力,终于到BERT出来之后,我们有了预训练模型+Faiss向量化召回框架,才终于让dense retriever的效果上去。

2019年的ORQA[7]提出了Inverse Cloze Task任务,通过预测一句话正确的Context对Retriever进行预训练,之后再对Retriever和Reader进行联合训练,终于在3个数据集上打败了传统的BM25+BERT。

2020年的REALM[8]则更进一步,提出了让Retriever和Reader更好结合的MLM预训练任务。具体的做法是,随机对句子的实体进行mask,作为query,让Retriever从候选中抽取句子,再让Reader根据query和候选预测被mask的实体:

但上述两种方法都需要进行预训练,这个成本是很高的。

接下来,2020年的DPR[9]提出,可以用更少的语料来训一个Retriever。那问题就来了,用什么数据训Retriever才好呢?DPR采用的正例是:

  • 阅读理解数据集的正例

  • 包含answer的BM25高分段落

而负例则采用:

  • 随机段落

  • 不包含答案的高分BM25段落

  • 其他问题的正例段落

同时在训练时采用In-batch negative策略,相比REALM提升了2个多点。同时又证实了Pipeline方法的高效性。

优化了半天Retriever,那Reader层面还有什么优化呢?能不能用生成模型?

2020年的RAG[10]就用DPR Retriever+BART模型来了一版生成式开放域QA:

不过讲了半天,上面方法本质还是Two-stage的,2019年的DenSPI[11]就想,能不能phrase level进行召回,那要是都召回phrase了,reader是不是就可以省了?

说干就干,于是DenSPI把phrase都切出来了,一方面用BERT的start和end表示作为dense表示,一方面用TF-IDF做sparse表示,两个表示拼接起来,居然效果还不错,在SQuAD上能超越一些Two-stage的方法。

最后,让我们来看看女神总结的各模型表现:

Retriever-free

开放域问答的尽头,难道是预训练大模型?

然而女神的报告是2020年做的,只介绍了GPT-2和T5,从效果上看,预训练大模型是可以得到不错的效果的,然而这个效果跟模型尺寸强相关,11B的T5刚刚能赶上3个BERT-base的DPR效果。

数据集与评估

评估方式主要有:F1、Exact match、Top-N accuracy等

总结

问答是搜索引擎的尽头吗?我不知道,但我相信未来几十年之后,随着互联网的信息越来越多,人机交互的形式一定会发生变化。而其中最重要的技术,除了NLP可能就是脑机接口了。

希望我35岁危机之前问答技术能有一波大突破,please。

参考资料

[1]

End-to-End Open-Domain Question Answering with BERTserini: https://arxiv.org/abs/1902.01718

[2]

Simple and Effective Multi-Paragraph Reading Comprehension: https://arxiv.org/abs/1710.10723v1

[3]

Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering: https://aclanthology.org/D19-1599/

[4]

Reinforced Ranker-Reader for Open-Domain Question Answering: https://arxiv.org/abs/1709.00023

[5]

Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering: https://arxiv.org/abs/1711.05116

[6]

A Discrete Hard EM Approach for Weakly Supervised Question Answering: https://arxiv.org/abs/1909.04849

[7]

Latent Retrieval for Weakly Supervised Open Domain Question Answering: https://arxiv.org/abs/1906.00300

[8]

REALM: Retrieval-Augmented Language Model Pre-Training: https://kentonl.com/pub/gltpc.2020.pdf

[9]

Dense Passage Retrieval for Open-Domain Question Answering: https://aclanthology.org/2020.emnlp-main.550.pdf

[10]

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks: https://arxiv.org/abs/2005.11401

[11]

Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index: https://aclanthology.org/P19-1436.pdf


欢迎对NLP感兴趣的朋友加入我们的「NLP卷王养成」群,一起学习讨论~

扫码添加微信备注「NLP」即可⬇️


大家好我是rumor

一个热爱技术,有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「为NLP的进步干杯」

丹琦女神出品|开放域问答综述相关推荐

  1. ACL Tutorial|开放域问答综述 -- 陈丹琦和Scott

    每天给你送来NLP技术干货! 来自:李rumor 做了三年多的问答,我对这个领域真是又恨又爱.恨吧,互联网里的问答产品就是个锦上添花的东西,而且效果还上不去,一堆case等着我解.爱吧,我们NLP可是 ...

  2. 检索器与阅读器:开放域问答的综述 Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering

    开放域问答(OpenQA)是自然语言处理(NLP)中的一项重要任务,旨在基于大规模非结构化文档以自然语言的形式回答问题.最近,关于 OpenQA 的研究文献数量激增,特别是与神经机器阅读理解 (MRC ...

  3. Facebook刷新开放域问答SOTA:模型训模型!Reader当Teacher!

    文 | Sherry 不是小哀 编 | 小轶 一部问答系统发展史就是一部人工智能发展史.早在1950年的图灵测试就提出:如果人类无法通过问答将机器和人区分开,那么这个机器就可以被认为具有智能.问答系统 ...

  4. 【论文阅读】开放域问答论文总结,文本召回与问答的另一种思路

    [论文总结]开放域问答,纯文本召回与精排的另一种思路 前言 SCIVER: Verifying Scientific Claims with Evidence 任务介绍 数据样例 开放域问答 Read ...

  5. EMNLP 2020 | 基于超边融合的文本增强知识图谱开放域问答

    ©PaperWeekly 原创 · 作者|舒意恒 学校|南京大学硕士生 研究方向|知识图谱 论文标题: Open Domain Question Answering based on Text Enh ...

  6. 论文浅尝 | XQA:一个跨语言开放域问答数据集

    论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A ...

  7. 阿里达摩院刷新纪录,开放域问答成绩比肩人类水平,超微软、Facebook

    出品 | AI科技大本营(ID:rgznai100) 近日,由阿里巴巴达摩院语言技术实验室研发的 Multi-Doc Enriched BERT 模型在微软的 MS MARCO 数 据评测任务,Pas ...

  8. 丹琦女神新作:对比学习,简单到只需要Dropout两下

    文 | 花小花Posy 上周把 <对比学习有多火?文本聚类都被刷爆了...>分享到卖萌屋的群里后,遭到了群友们一波嫌弃安利. 小伙伴们表示,插入替换的数据增强方式已经Out了,SimCSE ...

  9. 陋室快报 | 近期好文分享:CLUE最新发布KgCLUE,开放域对话,Prompt-29211212

    陋室快报 陋室快报是对陋室推荐栏目更新优化后的版本,更快更准的给大家推荐优质信息,频率预计是一周一次.敬请关注.栏目介绍:陋室快报栏目介绍. 近期,我再次总结了我的历史文章,累积起来有50w字,百余篇 ...

最新文章

  1. 人生第一次:领年终,拿股票!
  2. python 装饰器入门
  3. Visual Studio 2010 -新特性,但我要的比这个更多!
  4. zkui - Zookeeper的Web UI界面 windows环境
  5. Java5:BigInteger、BigDecimal详解
  6. Meteor项目实战 -- Next 0.0.2
  7. 01.学习笔记-linux操作系统常用命令
  8. @spoj - lcs2@ Longest Common Substring II
  9. 用时间序列的方法处理数据
  10. duilib学习 --- 360demo 学习
  11. 微信小程序登录(包括获取不到unionid的情况)
  12. Python3爬虫教程-1.使用爬虫抓取网页上的一张图片
  13. Word怎么快速插入空白页
  14. UnityShader源码2017---学习笔记与自我拓展019
  15. 最新解决方法This template did not produce a Java class or an interface
  16. 【Hive】Beeline CLI介绍
  17. HTML Table之展开收起
  18. 市场调研-邻苯二甲酰亚胺钾市场现状及未来发展趋势
  19. Android实现真正的344格式化手机号码输入框
  20. 【STB】未来机顶盒的发展方向

热门文章

  1. 诺贝尔奖距离中国内地多远(ZT)
  2. Windows系统C语言代码一览
  3. 阿俊带你用Kotlin刷算法(一)
  4. 机器人抓取 三维重建机器人抓取 三维物体匹配
  5. 计算机二级C语言操作题怎么做?注意事项(难点易错点总结笔记)
  6. 拍卖行做VC,第一次出手就投了个Web3
  7. C++ - 多继承方式会产生多个虚函数表
  8. SE14 激活并调整数据库
  9. Winsock Fix for Windows 7
  10. 自我鉴定300字大专计算机应用,大专毕业自我鉴定300字计算机专业