Abstract

很多问题生成(QG)任务基本上是一种简单的句法转换;然而,句子语义的许多方面都会影响到问题的质量。Syn- QG来实现对语义的利用,Syn QG系统由一组透明的语法规则组成,利用了通用依赖、浅层语义分析、词汇资源和将陈述句转换为问答对的自定义规则。同时利用ProbBank参数描述和VerbNet状态谓词(两个SRL数据集)结合浅层语义内容,这有助于生成描述性问题,并产生比现有系统更丰富的推理和语义问题。为了提高句法流畅性和消除语法错误问题,我们在这些句法规则的输出上使用了反译。一组众包评估表明,与之前的QG系统相比,我们的系统可以生成更多高度语法化和相关的问题,而反向翻译可以大幅提高语法性,而且很少生成无关的问题.

Introduction

以前的基于规则的方法在生成的问题上缺乏多样性,只使用了一些简单可靠的语法转换模式。神经体系结构提供了一条解决这一限制的途径,因为它们可以利用QA数据集来学习人类问题类型的广泛阵列,提供了数据利用、端到端可训练体系结构的常见神经网络优势。然而,目前的神经QG系统仍然缺乏质量:生成的问题缺乏语法流畅性,模型缺乏透明度并且不容易改进。作者认为,从本质上讲,QG可以由简单的句法“问题转换”来控制,因为这符合所有主要的语言学观点。然而,成功、流畅的问题生成不仅需要理解句法问题转换,因为恰当的问题还必须遵守各种语义和语用约束。作者通过使用语义角色标签(SRL)、之前未利用的语言语义资源(如VerbNet的谓词(图2)、PropBank的角色集和自定义规则(如含义)来解决这些问题,从而生成更广泛的描述性和推理性问题。作者将其系统与其他三个QG系统进行对比,在众包人类评估中,其语法性和相关性优于现有方法,同时生成更多类型的问题。

Relate work

相对于当前的神经问题生成,基于规则的体系结构高度透明,易于扩展,并由于它们在解析结构上执行明确定义的语法转换,如主语辅助倒装和WHmovement,同时利用基本的NLP注释,如命名实体,共同引用、时态实体等,所以生成的问题格式良好。然而,大多数现有的基于规则的系统缺乏多样性,主要集中在生成What类型和布尔类型的问题上,并且主要利用没有语义信息的解析结构。

Syn-QG:Syn- QG是一个基于规则的框架,它通过它通过以下方式识别潜在的简短答案来生成问题 :1)关键依赖关系节点;2)以语义角色的形式修改每个谓词的参数;3)命名实体和其他通用实体;4)V-erbNet在语义谓词形式下的主位角色状态5)PropBank角色集(roleset)特定的自然语言描述。这五种启发式算法中的每一种都独立工作,生成一组组合的问题-答案对,并最终进行反向翻译。

Body

1.依赖启发法(Dependency Heuristics)
依赖树是语法树结构,其中以单词形式存在的语法单元通过定向链接连接。限定动词被视为树的结构根,所有其他句法单位要么直接(nsubj、dobj等)要么间接(xcomp、iobj等)依赖于该限定动词。我们根据通用依赖(UD)格式(de Marneffe et al.,2014)给出了此类依赖树的规则注释。为了提取依赖结构,我们使用Gardner等人(2018)的解析器。我们利用PropBank的谓词-论元结构(SRL)进行从句提取,提取可作为答案的动词及其几个依赖节点。这些规则将从句视为主语、宾语、中心动词和其他非核心参数的组合。如果在动词周围找到情态动词、助词和否定词,这个从句会进一步精炼。最后,我们使用了一组预定义的手写模板,其中一些模板如表1所示。
在每个模板中,我们根据潜在答案的命名实体,将What转换为Who/Whom,When或Where,并根据主语的时态和数量转换为do 为does或did,以确保主语动词一致。

表1:描述问题结构的几个模板。不同的单词单位以独特的颜色显示,以描述模板的填充。所有简短的答案都以蓝色突出显示。
2.SRL启发式(SRL Heuristics)
虽然依赖关系表示可能是自动提取单词之间关系的最流行的语法方法,但它们缺乏足够的语义细节。能够回答“谁对谁做了什么,怎么做,为什么,何时何地”一直是理解语言的中心焦点。近几十年来,浅层语义分析已成为理解这些关系的一个重要选择,并被广泛用于问题生成。
PropBank风格的框架提供了围绕动词的论元(argument)所扮演的语义驱动角色。此外,由于PropBank和FrameNet等语料库的存在,人们正在开发高精度的语义角色标注模型。我们利用Gardner等人(2018)的SRL模型提取句子中每个动词的角色。我们首先过找出所有的谓词与其论元,其中包含一个Agent或Patient,以及至少一个其他修饰语,比如程度、方式、方向等。这些修饰语将作为我们的简短答案。我们使用了一组预定义的手写模板,如表2所示,这些模板会重新排列事实中的参数,根据修饰符将其转换为疑问语句。在图1中,谓词“won”由患者“New Mexico”、代理人“Obama”、范围修饰语“5%”和时间修饰语“In 2008”修改。作为一个简短的回答,我们填写了一个预定义的模板 “By how much mainAux nsubj otherAux verb obj modifiers?”以获得上述问题-答案对。我们保持论点在原句中出现的顺序。模板如表2所示。

图1:利用SRL结构调用模板,并对修改参数进行简单的重新排列。

表2:时间、方向、范围等模板被用来询问关于不同修饰语的问题。答案片段以蓝色突出显示。在像最后一个例子这样的被动语态下,我们将模板顺序从sub动词obj更改为obj动词by sub。

3.命名实体、自定义实体
当任何带编号的SRL参数包含常见的命名实体(如人员、位置、组织等)时,我们会创建单独的模板。我们以正则表达式的形式添加特定规则,以解决特殊情况,从而区分短语(如持续时间和截止时间),而不是一般的when问题类型。

表7:包含命名实体的SRL论元完全被视为“大约10分钟(for around 10
minutes)”的简短答案,而不仅仅是“10分钟”这个命名实体。SRL参数以蓝色突出显示。
4.处理情态动词和辅助词
作者设置了一些简单的规则确保模板在倒装动词和论元时辅助词的位置被正确设置:当有多个助词时,我们只颠倒第一个助词,而第二个和更多的助词保持在主动词之前。 我们确保宾语紧跟在动词之后。对于被动语态,subj-verb-obj 改为obj-verb-by-subj。
5.VerbNet谓词模板
SRL基于事件的表示法允许我们生成讨论参与者在事件扮演中的角色的问题,我们利用VerbNet的子事件(sub-event)表示法来询问参与者的状态在事件发生的时间内如何变化的问题。在图2中,事件谋杀导致参与者Julius Caesar处于非存活状态的最终状态。

图2:VerbNet谓词问题生成。
VerbNet(Schuler,2005;Brown et al.,2019)中的每一类都包括一组成员动词、谓词-论元结构中使用的主题角色,以及新戴维森一阶逻辑公式中表示的平面句法模式及其相应的语义谓词。这些语义谓词产生子事件的时间序列,跟踪参与者的状态在事件过程中的变化。优点是能够提出表面形式不同于源句的问题,但这些问题是由推理驱动的,而不仅仅是意译。例如,在“布鲁特斯谋杀了朱利叶斯·凯撒”一句中,事件谋杀意味着最终状态为“死亡”,或者Patient在事件结束时不活着。因此,我们构建了一个模板“mainAux the Patient otherAux not alive?”。

图3:verbNet谓词问题生成。由于e3具有面向过程的谓词TRANSFER,因此将考虑两个子事件e4和e5的所有谓词。cost是主要事件E的谓词。
在推理过程中,我们首先借助Brown等人(2019)的解析器计算VerbNet语义、相关的主题角色映射和句法框架(以及谓词)。VerbNet的谓词由它们发生的子事件控制。尽管VerbNet的表示法列出了一系列子事件,但没有明确提到子事件是最终事件3。我们选择这些子事件的所有谓词,这些子事件前面有至少一个面向流程的谓词的其他子事件。
6. PropBank参数说明
PropBank rolesets对特定于动词的参数定义(“killer”、“payer”等)进行粗粒度访问控制(course-grained),以表示语义角色,提供了强有力的特定自然语言描述,以询问参与者扮演的确切角色。尽管如此,并不是所有的描述都适合直接在刚性模板中使用。因此,我们合并了反向翻译,以1)消除由错误的解析和模板限制传播的语法错误,2)消除很少使用的道具库描述,并生成高度可能的问题。
虽然之前在基于规则的QG中的工作使用了SRL模板和WordNet词义来描述围绕动词的角色参数,但之前的SRL模板一直是动词不可知的,我们相信PropBank描述中有很大的潜力。此外,WordNet的超级感知(supersenses)并不总能产生可接受的问题。在人工评估中,将模板与WordNet supersenses结合后,问题相关性降低。相反,我们使用PropBank的特定于动词的自然语言参数描述来创建一组额外的模板。V erbNet senses通过SemLink项目与PropBank角色集进行一对一映射(Palmer,2009)。因此,我们找到了一个合适的语法分析器。
然而,我们观察到,PropBank的很多描述都很嘈杂,使用的短语在“呼吸者”或“信任者”等普通用语中无疑是罕见的。为了消除这种描述,我们计算了过去100年时间跨度内所有PropBank短语的平均谷歌N-gram概率(Lin等人,2012),并只保留了排名前50%的短语。

Evaluation and Results

BLEU-3和BLEU-4优于其他QG模型,人工评估的结果在语法性和相关性上也高于其他模型。

Syn-QG: Syntactic and Shallow S emantic Rules for Question Generation阅读笔记相关推荐

  1. Joint Learning of QA and QG阅读笔记

    Joint Learning of QA and QG Brief introduction 大背景:QA和QG是两个非常相关的任务,但是到目前为止没有进行非常好的结合(作者看来). 本文大框架:两个 ...

  2. 论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

    本文转载自公众号:徐阿衡. 梳理一下 MSRA 3 篇关于 QG 的 paper: Two-Stage Synthesis Networks for Transfer Learning in Mach ...

  3. 问题生成(QG)与答案生成(QA)

    继续 QG,梳理一下 MSRA 其他 3 篇关于 QG 的 paper: Two-Stage Synthesis Networks for Transfer Learning in Machine C ...

  4. 阐明性问题生成 (Clarification Question Generation) 概览

    ©PaperWeekly 原创 · 作者|章志凌 学校|上海交通大学硕士生 研究方向|文本生成和知识图谱 Clarification/clarifying question generation (C ...

  5. 问题生成论文(question generation)-2020

    自然语言论文查找 康奈尔大学cl 1.2020_Toward Subgraph Guided Knowledge Graph Question Generation with Graph Neural ...

  6. 智能问答-问题生成(QG)历史最全论文、综述、数据集整理分享

    Question Generation(问题生成),简单理解就是"主动提问"的AI应用场景,是Question Answer(QA)一个子领域.QG 的应用还是挺广泛的,像是为 Q ...

  7. 论文阅读 QA与QG联合学习

    论文 Question Generation for Question Answering Question Answering and Question Generation as Dual Tas ...

  8. 恒源云(GpuShare)_无监督的QG方法

    文章来源 | 恒源云社区 原文地址 | 通过摘要信息问题生成改进无监督问答 原文作者 | Mathor 上海于昨日宣布要开始在全市范围内开展新一轮切块式.网格化核酸筛查![恒源云]云墩墩☁️ 提醒小伙 ...

  9. 问题生成(QG)总结

    这个暑假做了个QG的调研和复现了模型,做一个总结. 文中涉及的文章详细介绍可见论文阅读 Question Generation 背景: 为什么要研究QG? 从人的经验看,好的学习者一定是擅长提问的.机 ...

最新文章

  1. 山西农业大学c语言答案,第一章C语言及程序设计概述-东北农业大学教务处.doc...
  2. android按键映射
  3. undo自动调优介绍
  4. 全国计算机等级考试题库二级C操作题100套(第90套)
  5. java.net.unknown_android -------- java.net.UnknownServiceException
  6. Java:这是一份全面 详细的 Synchronized关键字 学习指南
  7. VMware Workstation 8 技巧集
  8. 用前考虑清楚,伤敌一千自损八百的字体反爬虫
  9. matplotlib显示图中标签
  10. ubuntu下命令行设置壁纸
  11. 前端 new实例后销毁实例_后浇带怎么做不漏浆?看个实例
  12. ADO.NET学习笔记--索引Index
  13. AHCI驱动下载与手动安装图解
  14. 电容与电感串联直流电路系统分析
  15. 第三阶段应用层——1.10 数码相册—main_page主界面的显存管理、页面规划、输入控制
  16. 英语单词学习-词根词缀记忆思维导图
  17. 常用设计模式——装饰者模式
  18. 杰洛特的Python之旅01_抓取微信性别数据在web上展现饼图
  19. 使用NetBeans进行J2ME开发(五):揭开游戏开发的神秘面纱
  20. ubuntu默认账户丢失后找回

热门文章

  1. umi路由懒加载和权限验证(基于React)
  2. 使用C#从图片文件生成图标ICON文件(附源文件)
  3. 计算机中丢失storm.d,win10 64位电脑缺少storm.dll怎么办_win10玩暗黑破坏神2缺少storm.dll文件修复方法...
  4. 高瓴资本张磊:选择比努力重要,与谁同行比要去的远方重要
  5. 【值得收藏】如此心机的老婆,不难教出一个优秀的女儿。谁娶了都是福。
  6. 测试过程中遇到的问题总结
  7. [Bug] Spring相关bug收集
  8. linux 云主机 管理软件,常用6款云服务器管理软件(上)
  9. fabric java sdk解析channel.queryTransactionByID(txId)方法的返回值
  10. geotools中等值面的生成与OL3中的展示