⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

本次的AI TIME PhD直播间,我们邀请到了来自复旦大学自然语言处理组2018级的在读研究生 王思远,她的研究方向为基于文本的问题生成、知识建模。

EMNLP2020中,复旦大学数据智能与社会计算实验室 (Fudan DISC) 提出了一篇基于事实的问题生成工作,论文题目为:PathQG: Neural Question Generation from Facts,被录取为长文。

王思远:复旦大学自然语言处理组2018级在读研究生,导师魏忠钰副教授,研究方向为基于文本的问题生成、知识建模。

一、Abstract文章摘要

图1:PathQG: Neural Question Generation from Facts

关于问题生成的当前研究通常将输入文本作为序列直接编码,而没有明确建模其中的事实信息,这会导致生成的问题和文本不太相关或者信息量较少。在这篇论文中,考虑结合文本中的事实以帮助问题生成。基于输入文本的事实信息构造了知识图,并提出了一个新任务:给定知识图中的一条query路径生成问题。任务可以被分为两个步骤,(1)对query表示的学习;(2)基于query的问题生成。首先将query表示学习定义为序列标记问题,以识别涉及的事实从而学习到一个query表示,之后使用基于RNN的生成器进行问题生成。以端到端的方式共同训练这两个模块,并提出通过变分框架加强这两个模块之间的交互。基于SQuAD构造了实验数据集,实验结果表明模型优于其他方法,并且当目标问题复杂时,性能提升更多。通过人工评估,也验证了生成的问题的确和文本更相关且信息更丰富。

二、Introduction & Motivation研究背景和研究动机

这篇论文关注基于文本的问题生成任务(Question Generation from Text):输入一段文本,自动生成对应的问题。

为什么关注问题生成(Question Generation)?

因为问题生成现在有较广泛的应用。比如,交互系统里的聊天机器人可以开启一段对话、教育领域可以扮演教师的角色去提出问题、在研究领域可以为问题回答任务构造问题集。

当前问题生成存在的问题 ?

当前端到端的问题生成研究,通常对输入文本直接编码并学习一个隐表示,而没有对其中的语义信息进行明确建模,这会使得生成过程有较大不确定性,导致生成的问题包含和给定文本不相关的信息或者信息量较少,如下图显示,生成的问题Q2包含了不相关的信息“Everton Fc”,而Q1虽然正确但是缺少特定的信息描述,显得比较简略。

图2:问题生成举例

基于此,我们做了Task Definition:

先对输入文本中的事实(facts)进行建模可以减轻这些问题,并且针对文本中的多个事实,可以生成较为复杂(complex)的问题。我们通过对给定文本构建知识图谱(Knowledge Graph,KG)来表示其中的事实,并提出一个新任务:给定知识图谱中的一条query path来生成问题,其中query path是一条由多个事实三元组构成的序列,每个事实三元组包含两个实体以及它们的关系。如上图(b)显示了一个KG以及其中的两条query paths。由于query path中并非所有事实都会在目标问题中被提及,我们首先需要学习一个query representation来表示query path中会被提及的事实信息,并基于此生成对应的问题,因此任务可以分成两个步骤:(1)对query representation的学习;(2)基于query的问题生成。我们以端到端的方式共同训练这两个模块,并提出通过变分框架加强这两个模块之间的交互。

三、Framework-模型介绍

Path-based Question Generation给定query path的问题生成任务包含两个步骤,我们设计两个模块:Query Representation Learner和Query-based Question Generator 分别进行任务中的两个步骤。我们首先以端到端的框架PathQG共同训练这两个模块,具体结构如下图显示。

图3:Path-based Question Generation

Query Representation Learner由于query path中的不同的实体和关系会对生成目标问题有不同的贡献度,我们首先计算它们各自的贡献权重,从而学到一个query representation来表示目标问题将涉及的事实信息。

贡献权重计算:将query path看作是一条由实体和关系相间构成的序列,并将query path中各个成分的贡献度计算看作是一个序列标记过程。并且对输入文本进行编码作为context,通过attention帮助序列标记的概率计算,最后将各个位置的sigmoid概率作为各自的贡献权重。

Query表示学习:得到query path的各个成分的贡献权重后,我们以加权的方式对query path编码,学习到对应的query representation L。考虑到query path由实体和关系相间构成的特殊结构,我们使用循环跳跃网络(recurrent skipping network, RSN)来对路径序列进行编码。

图4:所用公式

Query-based Question Generator:基于学到的query representation L,解码生成对应的问题。将最后的query representation和context表示联合作为解码器的初始状态,并分别对他们执行注意力机制,逐步生成问题。

Variational Path-based Question Generation:对query representation的学习可以看成是对query path的一个推断过程,参考变分推断的思想,我们将query representation的学习看作是推导query的先验分布(prior query distribution),而基于query的问题生成是在计算目标问题的likelihood,我们又引入了一个额外的后验query分布(posterior query distribution),通过将目标问题作为指导来帮助减少query representation学习的不确定性。并且通过训练,使得query的先验分布不断靠近后验分布,最终提升生成的问题质量。变分PathQG的结构如下图。

图5:Variational Path-based Question Generation

四、Experiments-实验结果与分析

我们在SQuAD数据集上进行了实验,对每一条文本,通过场景图解析器(scene garph parser)和词性标注器(part-of-speech tagger)自动构建了知识图谱,并且根据参考问题从知识图谱中抽取出对应的query path。为了进一步验证模型在复杂问题生成上的效果,我们还根据query path中事实三元组的个数从SQuAD中划分了一个复杂问题数据集。在全数据集和复杂数据集上的实验结果显示我们的模型都优于其他模型。

图6:实验结果

除了自动评估,我们还通过Amazon Mechanical Turk (AMT)进行了人工评估,分别从问题的流利度、正确性(和给定文本和答案一致)、信息量对不同模型生成的问题进行了两两比较,结果显示我们的模型也取得不错效果。

图7:人工评估

我们还通过对不同模型生成的问题和给定文本之间的重叠率进行比较,来评估生成问题和给定文本的相关性。

图8:重叠率比较

最后还进行了一些案例分析,可以看出相对模型NQG+,我们生成的问题更加和文本相关和有信息量。在第一个样例中,我们生成的问题包含有特定信息“plymouth”和“late 18th”而*NQG+没有,而在第二个例子中NQG+*生成的问题包含不相关的“swazi economy”而我们生成的和给定文本更一致。

图9:案例分析

五、Conclusion & Future Work总结和展望

5.1总结

负采样

这篇文章中,我们通过知识图谱对文本中的事实建模用于问题生成,并提出一个新任务:给定知识图谱中的一条query path,生成对应的问题。我们提出先学习一个query representation来表示问题中可能涉及的事实,再生成问题,将这两个模块联合进行训练并提出一个变分模型提升问题的生成。我们通过自动构建知识图谱并抽取出对应的query path构建了我们的实验数据集,结果验证了我们模型的有效性。

5.2展望

负采样

接下来,我们希望更多的去探讨一些可解释方法来做问题生成,例如采用symbolic-based models。在评价指标层面,我们会设计一些更有意义的指标用于问题生成任务,把一致性和信息量等指标考虑进来。

供稿:王思远

审稿:王思远

整理:李嘉琪

排版:杨梦蒗

本周直播预告:

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(直播回放:https://b23.tv/ULlIAV)

(点击“阅读原文”下载本次报告ppt)

复旦大学王思远:基于事实的自动问题生成研究相关推荐

  1. 基于机器学习的自动音乐生成播放器

    目录 详细设计说明书 1 1 引言 1 1.1 编写目的 1 1.2 背景 1 2. 此项目的任务提出者:西电软件工程课程组.西电软件开发小组 1 1.3 定义 2 1.4 参考资料 2 3 程序描述 ...

  2. 基于HTML模拟系统自动报告生成技术的研究与开发[开题报告]

    开题报告   一.课题题目 基于 HTML 模拟系统自动报告生成技术的研究与开发 二.课题内容及任务要求 本课题的主要目的是自动生成HTML格式的分析报告文档: 1. 对华铸CAE数据可以自动获取 2 ...

  3. 微软亚洲研究院论文解读:基于动态词表的对话生成研究(PPT+视频)

    本文为 12 月 27 日,北京航空航天大学博士生.微软亚洲研究院实习生--吴俣在第 21 期 PhD Talk 中的直播分享实录. 本次 Talk 的主题是基于动态词表的对话生成研究.首先,吴俣博士 ...

  4. 直播预告:基于动态词表的对话生成研究 | PhD Talk #21

    「PhD Talk」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义 ...

  5. 直播预告:基于动态词表的对话生成研究 | PaperWeekly x 微软亚洲研究院

    「PhD Talk」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义 ...

  6. 基于Attention的自动标题生成

    个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-46.html Attention原理 在自然语言处理中,最基本 ...

  7. 【智能驾驶】基于计算机视觉的自动驾驶算法研究综述

    近年来,随着人工智能技术的迅速发展,传统汽车行业与信息技术结合,在汽车自动驾驶技术方面的研究取得了长足进步,业内很多大公司都在此领域投入巨资进行研发,如国外的谷歌.丰田,国内的百度.比亚迪等公司都推出 ...

  8. 科技人员在计算机前的肖像,基于计算机视觉的人脸肖像画生成研究

    摘要: 通过计算机处理进行人脸肖像画生成是计算机视觉的研究方向之一,该技术在科普展览领域有了广泛使用,并且其中使用的计算机视觉相关的研究技术在工业生产和日常生活中也都有广泛应用.本文介绍了一种基于计算 ...

  9. c语言兔子序列第8年不繁殖,基于链表的兔子序列生成研究.pdf

    文章编号 :1674-7070(2012)06~555-04 基于链表的兔子序列生成 成亚萍 , 马瑞 , 摘要 0 引言 针对兔子序列的生成提 出了一种基 于链表的实现方法,并采用c语言编程 意大利 ...

最新文章

  1. asp.net mvc批量删除的实现
  2. 如何在Windows中快速轻松地将文件发送到SkyDrive
  3. 编程不仅是写代码!?
  4. appium python unittest_appium+python+unittest自动化测试
  5. 小米装android4.4,在VM已安装Android4.4 连接小米手环 网络设置
  6. 张一鸣的心里“住着小马哥”
  7. 把Oracle数据库移植到Microsoft SQL Server 7.0
  8. 使用网易云api、Vue 和swiper实现轮播图 (音乐app项目-第2步)
  9. 北师大计算机专业保研率,师范类高校保研情况,3所学校保研率超20%,北师大最高达到35%...
  10. 渗透测试常用工具-端口扫描
  11. python三角网格代码_三角剖分算法(delaunay)
  12. 信息技术在园林绿化技师试题测试中的应用
  13. C#要点技术(二) - Dictionary 底层源码剖析
  14. 开发工具 - WakaTime 时间记录
  15. 【万字干获】阿里妈妈搜索推荐广告预估模型2021思考与实践
  16. elasticsearch: max virtual memory areas vm.max_map_count [65530] likely too low, increase to at leas
  17. Java,看完我工资从12K变成了20K
  18. Java中对索引的知识总结
  19. Oracle 11g 新特性 -- Result Cache(结果高速缓存)
  20. 腾讯汤道生:微信乘车码已全量上线昆明地铁

热门文章

  1. 什么是UTM参数?这些你知道吗
  2. win10系统计算器闪退怎么办? win10系统计算器闪退解决方法?
  3. H2/H∞半车悬架控制仿真分析
  4. php 抽象工厂模式,PHP设计模式(三)抽象工厂模式(Abstract Factory)
  5. MySQL必知必会学习历程(一)
  6. 搜狗拼音输入法传统版 6.7i(0747) 去广告优化版
  7. 将网址直接打包成app(Hbuilder)
  8. 数学建模05-元胞自动机
  9. 计算机综合布线考试试题A,答案_网络综合布线期末考试A卷.doc
  10. GPS模块HAL层分析和调试