论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。


来源:NLPCC2018

链接:http://tcci.ccf.org.cn/conference/2018/papers/EV7.pdf

问题背景与动机

作者认为,目前的问题语料生成主要依赖于人工标注和整理,成本较大。而现有基于知识库的自动问题生成方法都不能较好的替代上述所需的人工标注效果。在同时考虑生成问题语料的流利度和问题的质量两个方面的问题后,采用了基于LSTM的神经网络生成方案,并提出一种新的输入序列预处理方式,从而达到获取高质量中文问题语料的效果。本方法在NLPCC2018的KBQG任务上获得了最优。

贡献

1.    使用LSTM用于中文问题生成

2.    提出了一种新的输入序列处理方法

模型

本文提出的模型由编码与解码两个部分组成,编码部分的输入是三元组(来自知识图谱)。

三元组由subject,relationship与object构成,作为答案的object在问题生成过程中不会被直接表达于问句中,但是它的存在有助于系统理解目前所生成问题的目标。因此,在问题生成过程中object需要被转换为一些特别的形式,以反映出它作为答案时,问句应表现出的问题意图类型。

下表是一些转换的例子,比如时间信息根据形式的不同可用<date>表示日期,<time>表示具体时间等等。

中文处理中一个非常难的问题是名称的识别,由于使用pattern无法有效找到中文名称信息,因此作者采用HanLP工具来完成上述工作,在HanLP中,名称信息可通过角色标注被识别出来。

这种object完成了上述两次替换的得到序列被作者称为token_seq,在完成名称识别后,则可以对原始三元组的object成分进行“词->词性标签“的替换(除了形容词和副词),如下表所示,经过这种替换的序列则被称为token_pos_seq。

需要说明的是,三元组中的subject会在输出序列中以<ent>的标签形式出现,因此不参与到问题生成模型的输入中,token_pos_seq/token_seq中的标签<is>用于分开relationship与object。

编码器-解码器的网络结构方面,采用了常见的双向LSTM编码与单RNN解码的形式完成。

实验

文章的实验数据来自 NLPCC2018 的 KBQG 评测子任务,提供规模为24,479的问答训练集,测试集规模为357,评测指标选用了BLEU-4(较高的BLEU值表示模型生成的问题与标准问题的描述形式更为相近,但并不意味着低BLEU问题就是错误的,这里仅供参考)。

此外,详细的神经网络参数设置原文已由描述,这里不再赘述。

实验结果如下表所示。



OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 基于知识库的神经网络问题生成方法相关推荐

  1. 论文浅尝 | 基于知识库的自然语言理解 01#

    本文转载自公众号:知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scien ...

  2. 论文浅尝 | 基于知识库的自然语言理解 04#

    本文转载自公众号:知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scien ...

  3. 论文浅尝 | 基于知识库的自然语言理解 02#

    本文转载自公众号:知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scien ...

  4. 论文浅尝 | 基于知识库的自然语言理解 03#

    本文转载自公众号: 知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scie ...

  5. 论文浅尝 | 基于知识库的类型实体和关系的联合抽取

    链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf GitHub项目地址:https://github.com/INK-USC/DS-RelationE ...

  6. 论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

    本文转载自公众号:PaperWeekly.作者:王文博,哈尔滨工程大学硕士生,研究方向为知识图谱.表示学习. 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入 ...

  7. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  8. 论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

    来源:ACL 2017 链接:http://aclweb.org/anthology/P17-2057 本文提出将 Universal schema 用于自然语言问答中,通过引入记忆网络,将知识库与文 ...

  9. 论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:NAACL 2018 链接:https://www.aclweb.org/anthology/N18-1020 问题背景与动 ...

最新文章

  1. python3下载文件-在Python 3中从Web下载文件
  2. CG CTF WEB GBK Injection
  3. 对于技术,工程师没有几个写博客的
  4. maven 打包指定依赖包_[Maven]-Maven基础-01-基础概念
  5. centos6.5卸载和安装mysql_Linux CentOS 6.5 卸载、tar安装MySQL的教程
  6. 6sp电池测试软件,上手6SP大容量电池,3550mAh(深度测试篇)
  7. unity, 判断可见性
  8. 阿里云Flink SQL开发指南——字符串函数——REGEXP_REPLACE正则替换
  9. 计算机教室所有计算机无法启动,多媒体教室常见故障及解决方法
  10. 【长文预警】美团联合创始人王慧文清华产品课
  11. 分支限界法之布线问题
  12. 转载:IEEE1588 ( PTP ) 协议简介
  13. 头条号如何提高文章推荐量和阅读量,头条号提高文章阅读量和推荐量的方法
  14. linux下运行testng,TestNG执行程序
  15. 微信小程序扫一扫和微信自带的扫一扫 获取二维码的url包括参数数据
  16. POI给WORD添加水印(亲测可用)
  17. 国外主流搜索引擎提交入口
  18. PPT中如何插入带圈的11
  19. Android逻辑卷管理LVM,LINUX——LVM逻辑卷管理
  20. java 邮件 已读回执_java – 在Firebase群组消息传递应用中实施已读回执功能

热门文章

  1. 实现Table多类不同数据类型的排序(顺反)
  2. 深入MTK平台bootloader启动分析笔记
  3. Linux kernel中常见的宏整理
  4. MDK中利用宏定义__DATE__和__TIME__设置产品的代码固件版本
  5. IDEA的使用注释编程时,出现报错解决方案
  6. l380废墨收集垫已到使用寿命_湖北雨水收集系统定制
  7. 七、matplotlib的使用
  8. fastapi 安全性 / APIRouter / BackgroundTasks / 元数据 / 测试调试
  9. LeetCode 1455. 检查单词是否为句中其他单词的前缀
  10. 【Kaggle】Intermediate Machine Learning(管道+交叉验证)