作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨自然语言处理

论文动机

当前问答系统面对的一大问题就是如何利用先验知识。我们人类可以通过不断的学习,掌握非常多的先验知识,并通过这些知识来回答问题。而这对问答系统而言就非常困难了,一方面不能像人一样不断积累,另一方面只能从输入中获取所需要的一切。

因此,人们就会将一些知识作成知识库(Knowledge Base,KB),用于辅助机器的理解。但是,KB 常常是不完整的,并且针对开放性问题,KB 不可能覆盖到所有的证据上。

如何解决这个问题是一个非常大的挑战。另一方面,人们可以使用大规模的网络文本作为开放性的 KB,并且也取得了一些成绩,但是这些工作更多的针对的是单文档,针对多文档的工作目前还相对较少。

作者推测一个可能的原因就是虽然这些文本可以提供更大规模的只是覆盖,但是缺少背景知识,这么多的文档反而会引入很高的噪声。因此作者考虑将这部分整合起来,通过不完整的 KB 获取必要的和问题相关的背景知识,基于这些信息在多文档中抽取合适的信息并最终回答答案。

模型结构


为了有效利用 KB 和文档信息,作者提出了一个新的端到端的模型,主要包含两部分:1)子图阅读模块:用于从知识库中获取和问题相关的知识信息;2)知识感知的文本阅读模块:利用获取的知识从文档中找出需要的答案。模型的结构图如下:

子图阅读模块

这部分的主要作用就是使用 graph-attention 来为每个子图实例整合他的邻居节点信息,从而得到每个子图实例更好的语义表示。因为最终是为了增强对问题的理解,作者首先通过一个 LSTM 处理问题,得到问题的情境信息丰富的隐层庄田表示,同时使用相同的 LSTM 得到标记化 (tokenized) 的关系隐层状态表示。接下来作者使用 self-attention 得到关系的语义表示:

由于问题需要和不同的关系进行匹配,而每个关系只关注到问题的其中一部分信息,因此,作者使用得到的关系表示和问题的每个隐层状态进行匹配,最后得到问题的语义表示:

同时,作者还发现主题实例的指示向量非常有用,如果一个主题实例连接的邻居出现在了问题中,那么对应 KB 中的三元组将会比那些非主题实例的邻居对问题的语义表示更有用,因此在邻居节点上的注意力值最终表示为:

因此最终每个子图实例就可以通过如下方式计算出来:

知识感知的文本阅读模块

在上个模块,我们得到了每个子图实例的 embedding 表示,那么在这部分要做的就是利用这些表示增强对问题和文档的理解,从而得到最后的答案。这部分作者使用了一个现有的做阅读理解的模型。

首先是利用学习到的知识对问题进行更新表示。作者首先利用 self-attention 得到问题的原始表示,然后收集关于问题的主题实例,然后使用一个门结构将这些信息进行融合。

得到了对问题的更新表示之后,就是使用学习到的只是对文档进行增强表示,首先对文档和文档对应的实例使用 Bi-LSTM 进行处理,接下来作者设计了一种新的基于问题的表示的门机构,该结构允许模型能够动态选择跟问题相关的输入,从而得到更好的文档语义表示。

实体信息聚合 & 答案预测

最后作者将从 Text Reader 中得到的信息进行融合,首先使用一个 co-attention 计算问题和 Bi-LSTM 的隐层状态的相关程度,然后对这些隐层状态进行加权和,对于文档对应的实例,作者使用了均值池化得到最后的表示。最后使用一个非线性变化和 sigmoid 函数来求得每个实例是否是答案的概率。从而求得最后的答案。

实验

作者在一个公开数据集 WebQSP 上进行模型的效果验证,同时为了更好的验证模型的效果,作者还认为控制了 KB 的使用程度,从实验结果上看本文提出的模型还是很不错的。

同时作者还给出了一些 case 来更好的展示模型的效果。

总结

问答系统,尤其是开放性的问答系统需要非常多的先验知识来辅助答案的预测,虽然我们可以通过知识库来整合一些先验知识,但毕竟无法覆盖到所有的情况。作者通过知识库和大规模网络文本的相互辅助,从而提升了模型的整体性能。

同时我们也可以看到,知识库的使用正在变得越来越普及,无论是问答系统,对话,推理还是常识理解,都将知识库作为一个非常好的先验信息源,因此知识库的使用也变得越来越重要,非常值得关注一下。

点击以下标题查看更多往期内容:

  • 图神经网络综述:模型与应用

  • ACL 2019 | 基于知识增强的语言表示模型

  • ACL 2019 | 基于上下文感知的向量优化

  • 基于小样本学习的意图识别冷启动

  • 复旦大学邱锡鹏:词法、句法分析研究进展综述

  • ACL 2019 | 句对匹配的样本选择偏差与去偏方法

  • 深度长文:NLP的巨人肩膀(上)

  • NLP 的巨人肩膀(下):从 CoVe 到 BERT

#投 稿 通 道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 下载论文 & 源码

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统相关推荐

  1. ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入向量.并且大多数研究将实体映射到低维空 ...

  2. ACL 2019开源论文 | 基于Attention的知识图谱关系预测

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 由于传统方法都将三元组进行独立的处理,忽略了其相邻的三元组之间隐藏的固有信息的缺点,使得无论是转化模型还是较新的基于卷积神 ...

  3. ACL 2019 开源论文 | 使用跨领域语言建模的跨领域命名实体识别

    作者丨刘朋伯 学校丨哈尔滨工业大学硕士生 研究方向丨自然语言处理 本文是西湖大学张岳老师组发表在 ACL 2019 的一篇文章,提出了一种跨领域的 NER 方法.代码已开源: https://gith ...

  4. ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

    作者丨张冠华 单位丨腾讯实习生 & 哈工大本科生 研究方向丨自然语言处理 导读 句对匹配 (Natural Language Sentence Matching,NLSM) 任务是指给定两个句 ...

  5. CVPR 2019 开源论文 | 基于空间自适应归一化的图像语义合成

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 深度学习在算力的推动下不断的发展,随着卷积层的堆叠,模型的层数是越来越深,理论上神经网络中的参数越多这样对数据的拟合和分布描述就能越细致.然而 ...

  6. CVPR 2019开源论文 | 基于“解构-重构”的图像分类学习框架

    作者丨白亚龙 单位丨京东AI研究院研究员 研究方向丨表示学习.图像识别 基于深度卷积图像识别的相关技术主要专注于高层次图像特征的理解,而对于相似物体之间的细节差异和具有判别意义的区域(discrimi ...

  7. ICCV 2019 开源论文 | 基于元学习和AutoML的模型压缩新方法

    这篇文章来自于旷视.旷视内部有一个基础模型组,孙剑老师也是很看好 NAS 相关的技术,相信这篇文章无论从学术上还是工程落地上都有可以让人借鉴的地方.回到文章本身,模型剪枝算法能够减少模型计算量,实现模 ...

  8. ACL 2020 开源论文 | 基于Span Prediction的共指消解模型

    论文标题: Coreference Resolution as Query-based Span Prediction 论文作者: Wei Wu, Fei Wang, Arianna Yuan, Fe ...

  9. CVPR 2019 开源论文 | 基于翻译向量的图像翻译

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 图像翻译通常要解决两个问题:将原域图像翻译至目标域并且翻译后的图像和原域图像保持相似性.我们利用 GAN 可以很好的解决第一个问题,而针对第 ...

最新文章

  1. 判断手机是否输入表情
  2. c++的构造函数初始化列表
  3. 迈向现代化的 .Net 配置指北
  4. HashMap在java并发中如何发生死循环
  5. GCD简介四:挂起,目标指定,信号量
  6. 实现自动带密码登陆远程机执行shell命令(linux)
  7. 链表的分解(C++)
  8. Linux-Windows-Mac-Redis安装教程
  9. worker进程和task进程区别_swoole中使用task进程异步的处理耗时任务
  10. 面向对象——类设计(五)
  11. CocoaPods 简易教程 Alamofire请求数据 Swift
  12. Informatica的元数据和数据血缘关系
  13. 射频电路学习之LC振荡电路
  14. Xcode免证书导出ipa文件
  15. 氮化镓 服务器电源管理系统报价,基于LMG341x GaN FET的服务器电源单元(PSU)电路设计...
  16. wmf文件与emf文件
  17. k8s-安装部署实战
  18. 干货-任正非号召华为员工学习:认识5G,发展5G
  19. BugTrap:程序崩溃快照、bug跟踪之利器
  20. java游戏 动态录入弹球_动态弹球的实现 加入了多线程技术--javaSE游戏准备工作...

热门文章

  1. Android集成Firebase(含Analytics功能)
  2. AutoMapper在MVC中的运用小结
  3. Nginx中ngx_http_upstream_module模块
  4. 什么叫Web前端?web前端HTML5学习方法分享
  5. backreference Oracle正則表達式中的反向引用
  6. Mybatis_映射文件配置
  7. 【JavaScript基础系列】决定你的人生能走多远的,是基础。
  8. js中推断浏览器类型
  9. strncmp很好的函数
  10. [Android] Android开发优化之——使用软引用和弱引用