©作者 | 刘璐

学校 | 北京邮电大学

研究方向 | 问题生成与QA

问题生成(Question Generation)是文本生成中的重要子任务,旨在根据输入数据(文本、知识库、图像等类型,本文仅聚焦文本类型)生成与输入相关且自然流畅的问题。由于机器阅读理解(Machine Reading Comprehension, MRC)和智能问答系统的蓬勃发展,问题生成受到了越来越广泛的关注。

本文将根据时间线对问题生成的相关研究进行梳理,并在文末介绍了一些个人认为有价值的研究方向。

传统的问题生成依赖于人工设计的规则和模版将陈述句转换为疑问句,这样的方法需耗费大量人力且依赖于深层的语法知识,泛化性能和可扩展能力较差。

使用深度学习方法进行问题生成最早在 2017 年被提出。Learning to Ask: Neural Question Generation for Reading Comprehension (ACL 2017)将端到端训练的神经网络应用于问题生成,采用 seq2seq+attention 模型架构,摆脱了转换规则与模版的局限,取得了相比于传统方法更好的性能。另一篇将神经网络应用于 QG 的奠基工作 Neural question generation from text: A preliminary study(EMNLP 2017)在编码时额外考虑了答案位置与语法信息,取得了更好的性能。

之后到 2019 年,相关研究主要以 seq2seq 架构为基础,改变模型结构和或使用一些技巧来提升模型的性能,具体包括以下几个方面。

答案编码

将答案作为输入来指导模型生成问题时更关注答案以提升模型性能,常用方法包括将答案位置作为输入特征或使用额外的编码器对答案编码。

  • Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018

  • Improving Neural Question Generation Using Answer Separation.AAAI, 2019.

  • Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

语言特征

将额外的语言特征与词向量拼接作为输入来提升 QG,例如 word case、POS 和 NER 标签等。

  • Automatic Question Generation using Relative Pronouns and Adverbs.ACL, 2018.

  • Learning to Generate Questions by Learning What not to Generate.WWW, 2019.

问题类型建模

通过对问题类型或疑问词的显式建模来改善生成问题疑问词预测不准确的问题。

  • Question Generation for Question Answering.EMNLP,2017.

  • Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018.

  • Question-type Driven Question Generation.EMNLP, 2019.

段落级别上下文

利用输入文本周围的相关上下文增加输入信息来提升问题生成效果。

  • Harvesting paragraph-level question-answer pairs from wikipedia.ACL, 2018.

  • Leveraging Context Information for Natural Question Generation.ACL, 2018.

  • Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks.EMNLP, 2018.

  • Capturing Greater Context for Question Generation.AAAI, 2020.

内容选择

当答案信息不提供给模型时,给定输入段落,QG 系统需自动识别段落中值得提问的部分再生成问题。

  • Identifying Where to Focus in Reading Comprehension for Neural Question Generation.EMNLP, 2017.

  • Neural Models for Key Phrase Extraction and Question Generation.ACL Workshop, 2018.

  • A Multi-Agent Communication Framework for Question-Worthy Phrase Extraction and Question Generation.AAAI, 2019.

答案已知时,识别与答案相关的内容也有利于提升生成问题的效果。

  • Improving Question Generation With to the Point Context.EMNLP, 2019.

特定的训练目标

通过优化 ground truth 的对数似然来训练模型会对生成问题的多样性造成影响,一些工作通过结合强化学习使特定的奖励最大化来改善模型训练。

  • Teaching Machines to Ask Questions.IJCAI, 2018.

  • Natural Question Generation with Reinforcement Learning Based Graph-to-Sequence Model.NeurIPS Workshop, 2019.

  • Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.

  • Exploring Question-Specific Rewards for Generating Deep Questions.COLING, 2020.

  • Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

多任务学习

通过一些辅助任务来提升 QG 的能力,如通过语言建模来提升句子表示;通过复述生成增加表达的多样性;通过语义匹配和答案位置预测来缓解生成的疑问词不合适和 copy 不相关词汇的问题。

  • Multi-Task Learning with Language Modeling for Question Generation.EMNLP, 2019.

  • How to Ask Good Questions? Try to Leverage Paraphrases.ACL, 2020.

  • Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring.AAAI, 2020.

多样性

对潜在空间(如 VAE)和生成空间(如随机采样)进行控制来提升生成问题的多样性。

  • Variational Attention for Sequence-to-Sequence Models. ICML, 2018.

  • Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs.ACL, 2020.

  • On the Importance of Diversity in Question Generation for QA.ACL, 2020.

预训练语言模型提出后,大多方法通过微调预训练模型实现问题生成,进一步改善了生成效果,常用模型包括 UniLM、BART、T5 等。

  • Unified Language Model Pre-training for Natural Language Understanding and Generation.NeurIPS, 2019.

  • UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training.arXiv, 2020.

  • ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation.IJCAI, 2020.(SOTA)

此后,相关研究工作大多聚焦于问题生成在其他任务上的应用,不再通过修改模型提升生成效果,而是把问题生成作为整个系统的一部分直接使用。

数据增强

问题生成最直接的应用就是为问答模型或检索模型提供更多的训练数据,降低人工标注成本,提升模型的性能。

  • Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.

  • Synthetic QA Corpora Generation with Roundtrip Consistency.ACL, 2019.

  • Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering.ACL, 2020.

  • Training Question Answering Models From Synthetic Data.EMNLP, 2020.

  • Embedding-based Zero-shot Retrieval through Query Generation.arXiv, 2020.

  • Towards Robust Neural Retrieval Models with Synthetic Pre-Training.arXiv, 2021.

领域迁移

在目标领域生成问题/问答对来进一步训练问答模型可以提升模型的领域适应能力。由于问题生成模型学习到的是对知识点的提问方式,相比于问答模型扩展能力更强(不依赖于特定领域),因此将在源领域训练好的问题生成模型用于目标域生成问题的质量不会下降太多。

  • End-to-End Synthetic Data Generation for Domain Adaptation of Question Answering Systems.EMNLP, 2020.

  • Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation.ACL 2021.

  • Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval.arXiv, 2021.

OpenQA

开放域问答系统(OpenQA)通常使用检索-阅读架构实现,虽在精度方面已取得较好的效果,但阅读器的线上推理会非常耗时。利用问题生成模型将文档转换为常见问答对(FAQ)的形式,线上仅需通过问题间的匹配来实现问答,保证准确率的同时大大提高了效率,提升了开放域问答模型的实用性。

  • Open-domain question answering with pre-constructed question spaces.NAACL, 2021.

  • Accelerating real-time question answering via question generation.AAAI, 2021.

  • PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them.arXiv, 2021.

事实检查

通过问答对生成来构造一致性衡量指标或声明来进行事实检查。

  • Improving Factual Consistency of Abstractive Summarization via Question Answering.ACL, 2021.

  • Zero-shot Fact Verification by Claim Generation.ACL, 2021.

其他

近期还有一些其他的相关研究方向受到了广泛关注,如控制生成问题的难度、在问答式对话中生成问题、生成更深层次的问题(如多跳推理问题)、阐明性问题生成(Clarification Question Generation)等。

目前问题生成仍存在一些尚未解决却值得研究的问题

评估

目前大多数模型使用 BLEU、ROUGE、METETOR 等自动评估指标对生成的问题进行评价,这些指标是对生成文本与参考文本重合程度的度量,最先用于机器翻译、摘要生成等任务,适用于相对确定的长文本生成的质量评估,对于问题这种多样且短小的文本并不是太合适。但是人工评估又耗时耗力。

目前也有一些针对评估的研究工作,主要思路是将主观的人工评估指标数学化,比如可回答性、语义、词汇多样性等。

  • Towards a Better Metric for Evaluating Question Generation Systems.EMNLP, 2018.

  • On the Importance of Diversity in Question Generation for QA.ACL, 2020.

  • Evaluating for Diversity in Question Generation over Text.arXiv, 2020.

为问题生成模型设计合适的评估指标可以进一步促进模型的性能提升。

一致性

模型生成的问答对不能保证抽取的答案可以作为生成问题的合适答案,存在事实错误、内容不相关等情况。目前做法是通过添加过滤模型(常用的为问答模型)过滤掉不一致的问答对。探索如何保证生成问答对的一致性是值得思考的问题。

多样性

我们希望模型可以根据输入文本从多个角度对不同的提问点进行提问。目前工作对多样性的研究主要针对问题的表达多样性,即同样语义的问题使用不同的问法。由于现有数据集标注不充分,针对多个提问点的生成模型的训练、对生成问题覆盖度和多样性的评估均是难以解决的问题。

非事实问题生成

目前研究主要集中于事实性问题生成,问题对应的答案通常为命名实体或简短的片段。然而在许多领域非事实问题或开放式问题占比很大,因此非事实问题生成十分值得研究。此类问题对应的答案为多个句子或片段,因此生成问题需更好地把握答案与文章的整体含义,更具有挑战性。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

浅谈问题生成(Question Generation)相关推荐

  1. 浅谈文本生成或者文本翻译解码策略《转》

    原文链接,感谢原作者 目录 一.文本生成和翻译的基本流程 翻译类模型的训练和解码 训练过程 解码过程 生成类模型的训练和解码(GPT系列) 训练过程 解码过程 二.解码策略 1.贪心搜索(greedy ...

  2. 浅谈文本生成或者文本翻译解码策略

    目录 一.文本生成和翻译的基本流程 翻译类模型的训练和解码 训练过程 解码过程 生成类模型的训练和解码(GPT系列) 训练过程 解码过程 二.解码策略 1.贪心搜索(greedy search) 2. ...

  3. 浅谈幼儿园计算机论文,【一等奖 论文】凌姗:《浅谈幼儿园生成活动存在的问题及建议》...

    一.生成活动的概念与价值 生成活动是与预设活动相对应的一种课程.它不是教师预先计划好的,而是教师在与幼儿互动的过程中,发现幼儿的兴趣和需求,从而引发的一系列活动.生成活动具有是开放性.动态性和不确定性 ...

  4. 浅谈图像生成模型 Diffusion Model 原理

    重磅推荐专栏: <AI 大模型之美> 揭开 ChatGPT 面纱,拥抱 AI 新潮流 重磅推荐专栏: <Transformers自然语言处理系列教程> 手把手带你深入实践Tra ...

  5. 浅谈人工智能生成内容(AIGC)

    兴趣了解 [OpenAI ]人工智能绘画产品 DALL·E: 在计算机上输入一句话,DALL·E 就能够理解这句话.然后自动生成一幅意思相应的图像,且该图像是全网首发.独一无二. [谷歌 ] 5400 ...

  6. 论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

    文章目录 abstract 1.introduction 2. our approach 2.2 微调fine tuning 3.Model 3.1QA Model 3.2QG model abstr ...

  7. 浅谈利用NLG技术来进行游戏自动化(生成随机剧情随机对话)的可行性

    目录 背景 NLG(自然语言生成) 文本到文本生成 数据到文本生成 图像到文本生成 NLG模型的对比 NLG在游戏自动化的可能应用 根据UI图片来生成描述文本 根据背景或开头来生成剧情 根据背景或开头 ...

  8. 阐明性问题生成 (Clarification Question Generation) 概览

    ©PaperWeekly 原创 · 作者|章志凌 学校|上海交通大学硕士生 研究方向|文本生成和知识图谱 Clarification/clarifying question generation (C ...

  9. VALSE学习(十六): Visual Question Generation and Answering-视觉问题生成和视觉问题

    简介:VALSE2019  沈春华老师 相关知识: https://blog.csdn.net/LHWorldBlog/article/details/81124981 https://www.jia ...

最新文章

  1. wpf 对控件进行截图,获取快照
  2. GLSL学习笔记 - 6.2 Vertex Shader
  3. 一机玩转docker之十:创建及使用ssh镜像
  4. 【Groovy】闭包 Closure ( 自定义闭包参数 | 自定义单个闭包参数 | 自定义多个闭包参数 | 闭包参数默认值指定 )
  5. 西南交通大学计算机基础实验,西南交通大学实验教学平台-关于
  6. 大型企业都用什么web服务器呢?nginx
  7. CentOS6.9编译安装LNMP环境
  8. 北京大学计算机系 丁主任,丁骋、李时新参加第七届新闻史论青年论坛暨北京大学新闻学研究会年会...
  9. 华为鸿蒙系统刷屏,到底什么是微内核操作系统呢?
  10. 调用多个thrift接口ttypes冲突的问题
  11. [转载] python3.x总复习
  12. 线性代数-坐标系变换
  13. Tomcat—HTTPS之生成密钥库文件与配置Tomcat服务器
  14. qt tcp不可以循环发送_Qt tcp 多线程下QTCPsocket不能发送数据~解决办法(2)
  15. Android studio导入项目报错Please refer to the user guide chapter on the daemon at http://gradle.org/docs/2
  16. linux输出文件首行,Linux:提取文件的第一行
  17. 怎么用计算机连接电视,电脑怎么连接电视当显示屏用
  18. 内部异常 FileNotFoundException: 设备未就绪。 (异常来自 HRESULT:0x80070015)
  19. CNN网络模型的发展概述
  20. 本特利涡流式趋近式proximity位移传感器

热门文章

  1. c语言从E1到E123遍历,试题.习题__2011年c语言实验与习题集.doc
  2. mysal向一个无法连接的网络尝试了一个套接字操作 0.0.3.235_第十二章 Java网络编程(3)——套接字(上)...
  3. 简述ie_apache_php_mysql的关系?,apache +php + mysql
  4. android 如何做记住密码
  5. [文章备份]源代码制图工具Understand最新可用注册码
  6. centos7扩展根分区
  7. 【转】C++中的SFINAE
  8. Windows Phone 7 - 页面间传值 来源-http://blog.csdn.net/dncts/article/details/6160067
  9. Android开发之系统信息——获取Android手机中SD卡内存信息
  10. ASP.NET中Server与Request对象的方法