这个暑假做了个QG的调研和复现了模型,做一个总结。

文中涉及的文章详细介绍可见论文阅读 Question Generation

  • 背景:
    为什么要研究QG?
    从人的经验看,好的学习者一定是擅长提问的。机器知识库作为“学习者”,也许可以利用主动提问来高效构建或者补充知识库,扩充数据集等等。
    现在的一些应用场景:在教育领域,帮助学生来提问;在对话领域,作为冷启动来开始一个话题或者通过提问来获得反馈;在医药领域,可以用于自动问诊系统,作为一种辅助工具等等,可以看到应用场景还是比较多的

  • 问题定义:
    从传统来说,QG的定义是给定一篇文章,里面包含一些事实,根据这些事实,从不同角度提问题。
    简单来看,QG问题可以定义为一个优化问题,在给定答案的前提下,最大化生成问题的概率。

  • 相关研究:
    seq2seq模型自从2014年google brain和yoshua分别提出后成为了机器翻译,文本生成领域一个非常热门的模型。同年,bahdanau等人提出了attention机制用来解决长距离依赖不强的问题,16年 ACL上提出了pointer softmax和copynet解决了OOV的问题,17年 ACL上Abigail See等人提出coverage机制解决了句子中重复生成的问题。

  • 将深度学习用于QG:
    之前的做法主要是基于规则的,从知识库中提取知识填入模板中。Learning to ask是第一篇提出用端对端的seq2seq模型来做QG的,是cornell大学claire老师组的工作。模型是一个基础的加attention的seq2seq模型,encoder时同时考虑了段落和句子的信息,在SQuAD测试集上取得了比baseline稍好一些的结果。可以看到加了attention后提升很大,段落的背景信息提升较小。

    第二篇是18年北京大学yanrui老师组的工作是基于之前这篇做的改进,没有考虑段落的信息,考虑了关键词的信息,对问句根据疑问词归类成了八类,对生成的问句做了一个限制,只能以疑问词开头。在Amazon的数据集上取得了一定的提升。

    还有一些其它的工作,Microsoft和蒙特利尔大学有一篇合作的用RL的方法做QG的文章,Reward定义为两个部分,第一个部分是奖励,将生成的回答喂给另一个已经训练好的QA模型,如果answer较好,给一个正rewards,第二个部分是ppl,即句子流畅度。

    微软的周明老师组将QA和QG视为一个对偶任务,认为QA和QG是两个相同重要的生成任务。从MARCO,SQuAD的测试集结果来看MRR和MAP评分只略微提高了一点点,并且没有放BLEU的评分,这个评价标准得分应该更低。

问题生成(QG)总结相关推荐

  1. 论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

    本文转载自公众号:徐阿衡. 梳理一下 MSRA 3 篇关于 QG 的 paper: Two-Stage Synthesis Networks for Transfer Learning in Mach ...

  2. 问题生成(QG)与答案生成(QA)

    继续 QG,梳理一下 MSRA 其他 3 篇关于 QG 的 paper: Two-Stage Synthesis Networks for Transfer Learning in Machine C ...

  3. 2013-2018年自动问题生成的评估方法

    标题 Evaluation methodologies in Automatic Question Generation 2013-2018 (水的不能再水的一篇文章...我之所以坚持看完,是因为tm ...

  4. 恒源云(GpuShare)_无监督的QG方法

    文章来源 | 恒源云社区 原文地址 | 通过摘要信息问题生成改进无监督问答 原文作者 | Mathor 上海于昨日宣布要开始在全市范围内开展新一轮切块式.网格化核酸筛查![恒源云]云墩墩☁️ 提醒小伙 ...

  5. 论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

    文章目录 abstract 1.introduction 2. our approach 2.2 微调fine tuning 3.Model 3.1QA Model 3.2QG model abstr ...

  6. 检索器与阅读器:开放域问答的综述 Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering

    开放域问答(OpenQA)是自然语言处理(NLP)中的一项重要任务,旨在基于大规模非结构化文档以自然语言的形式回答问题.最近,关于 OpenQA 的研究文献数量激增,特别是与神经机器阅读理解 (MRC ...

  7. TiBERT:藏语预训练语言模型——中文翻译

    TiBERT--藏语预训练语言模型 摘要 ​ 预训练语言模型在大规模无标签文本上进行训练,可以在许多不同的下游任务中获得最先进的结果.然而,目前的预训练语言模型主要集中在汉语和英语领域.对于藏语这样的 ...

  8. 论文阅读:Guiding the Growth Difficulty-Controllable Question Generation through Step-by-Step Rewriting

    论文阅读:Guiding the Growth Difficulty-Controllable Question Generation through Step-by-Step Rewriting 来 ...

  9. 程序员面试常见海量数据处理问题

    前言 一般而言,标题含有"秒杀","99%","史上最全/最强"等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收 ...

  10. 智能问答-问题生成(QG)历史最全论文、综述、数据集整理分享

    Question Generation(问题生成),简单理解就是"主动提问"的AI应用场景,是Question Answer(QA)一个子领域.QG 的应用还是挺广泛的,像是为 Q ...

最新文章

  1. Session原理、安全以及最基本的Express和Redis实现
  2. 一文读懂Serverless,配置化思想复用到平台系统中
  3. 确认对话框ConfirmDialog和选择对话框OptionDialog
  4. mxnet cannot import name 'nd'
  5. java事件类_关于Java事件类的一些思考
  6. 4.1 SE38数据类型
  7. mysql limit分页知乎_头发一天天的掉,你知道MySQL的Limit有性能问题吗?
  8. 简单工厂模式和策略模式结合使用php
  9. 齿轮箱常见故障数据_齿轮箱故障分析和维护使用
  10. 阿尔法狗 3 天走完人类千年棋史,被反超的我们该如何绝地求生?34 个开源项目告诉你!
  11. IdentityServer4学习及简单使用
  12. 分享免费下载论文的网站
  13. 农场派对(party)(信息学奥赛一本通 1497)
  14. android js 回调函数,JS回调函数简单易懂的入门实例分析
  15. Elasticsearch 的 Task 停止方法
  16. 玩转pandas取数_下
  17. 判断当前是在ie还是谷歌
  18. 教育孩子,是从小的润雨细无声。纯属个人文学闷骚型。。。
  19. 银行常用加密算法PINBlock加密
  20. JMeter jp@gc - stepping thread group插件

热门文章

  1. qiankun微前端学习
  2. 用户查出本人所有待办流程
  3. DS单链表--结点交换
  4. g++基本用法 objdump 查看输出obj文件
  5. 前置机服务器连通_服务器和前置机区别 什么是前置服务器
  6. 191105CSP模拟DAY1
  7. 如何关闭电脑开机自动启动项
  8. Android桌面负一屏实现.md
  9. 2022年千元以下有哪些值得购买的蓝牙耳机?平价耳机深度测评,漫步者、南卡、Vivo、oppo、小米、三星、华为哪款最值得买?
  10. Tcp拥塞控制算法入门:分类及介绍( Reno bic Cubic vegas Bbr)