Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension

论文:https://arxiv.org/abs/2005.08056

代码:https://github.com/HongyuGong/RCM-Question-Answering

任务

传统的基于transformer的模型只能接受固定长度(如512)的文本作为其输入。为了处理更长的文本输入,以前的方法通常将它们分割成等距的片段,并根据每个片段独立预测答案,而不考虑其他片段的信息。因此,可能会形成不能覆盖正确答案跨度的片段,或在其周围保留不充分的上下文,大大降低性能。此外,回答需要跨段信息的问题的能力较差。本文提出recurrent chunking机制(RCM)提升长文本机器阅读理解的性能,以防止答案跨度过于接近段的边界和覆盖不完整的答案。

方法(模型)

通过强化学习,让模型以更灵活的方式学习分块:模型可以决定它要处理的下一个片段的方向。还采用了递归机制,使信息能够跨段流动。

传统方法:

首先将输入的文本分成等距的片段,然后预测每个单独片段的答案,最后将多个片段的答案集合在一起。

  • 传统方法缺陷

    • 预先确定的大跨度的分块可能会导致答案不完整,并且当答案在段的边界附近时,与答案在段的中心,周围有更丰富的上下文时相比,模型更容易失败。
    • 根据经验观察到,较小跨度的分块对模型性能的贡献很小(有时甚至伤害了)。

recurrent chunking mechanisms (RCM)

模型结构:

  • 特征

    • 可以让meachine reader通过强化学习来学习如何在阅读冗长的文件时智能地选择步幅大小,有助于防止从片段中提取不完整的答案,并在答案周围保留足够的语境
    • 应用递归机制,让信息在各段之间流动。该模型可以访问当前片段以外的全局上下文信息。

使用BERT生成向量表示,使用max pooling实现答案融合。

基线模型对每个文档段进行独立的答案预测,由于缺乏文档级别的信息,可能会导致不同段的答案得分无法比较。本文使用一个递归层来传播不同片段的信息,并使用分块评分器模型(chunking scorer model)来估计一个片段包含答案的概率。

两个递归机制:

  • gated recurrence
  • Long Short Term Memory (LSTM)

数据集

  • CoQA

  • QuAC

  • TriviaQA

性能水平&结论

BERT-Large模型的性能随着最大序列长度的减小,性能急剧下降。当最大输入长度从512下降到192时,CoQA数据集的F1分数下降了8.6%,QuAC数据集的F1分数下降了27.0%。

具有recurrent机制的BERT-RCM性能优于BERT-Large和BERT-Sent-Selector。

RCM模型对最大序列长度不太敏感,而LSTM的性能与gated recurrence性能接近。

不同stride size的性能比较:

过小的stride size不会提升模型准确率反而会降低模型性能。

效果展示

在三个MRC数据集CoQA、QuAC和TriviaQA上的实验证明了本文提出的递归分块机制的有效性,可以获得更有可能包含完整答案的片段,同时为更好的预测提供围绕真实答案的足够上下文。

【论文阅读】Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension相关推荐

  1. 《Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension》ACL2020论文阅读

    目录 论文认为的问题: 主要解决办法: BERT的缺陷: 模型架构: 基于策略的强化学习(policy-based RL): 对目标函数求导 模型的loss: 测试阶段: 结果: 补充: 机构为:伊利 ...

  2. 《Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension》--论文分享

    作者:Sjw 时间:2021年4月30日 今天要分享的是来自ACL2020的一篇论文,作者是:Hongyu Gong, Yelong Shen, Dian Yu,Jianshu Chen, Dong  ...

  3. 解读ACL 2020的一篇paper (Recurrent Chunking Mechanisms for Long-text machine reading comprehension)的源码

    本文的目的是解读Recurrent Chunking Mechanisms for Long-text machine reading comprehension这篇论文的GitHub上的代码. 我会 ...

  4. Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction 论文阅读

    Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction 南开大学 AAAI 2021 论 ...

  5. Read + Verify: Machine Reading Comprehension with Unanswerable Questions 论文阅读笔记

    原文链接:http://cn.arxiv.org/pdf/1808.05759 Read + Verify: Machine Reading Comprehension with Unanswerab ...

  6. [论文笔记-1]Aspect-based Sentiment Analysis as Machine Reading Comprehension

    题目.作者 一.Abstract 1. 现有的研究通常通过堆叠多个神经模块来处理基于方面的情感分析,这不可避免地导致严重的错误传播 2. 本文提出了MRCOOL: MRC-PrOmpt mOdeL框架 ...

  7. 初识机器阅读理解(Machine Reading Comprehension)

    机器阅读理解任务理解与文献查阅 参考博客: https://www.jiqizhixin.com/articles/2018-11-26-10 https://hanxiao.github.io/20 ...

  8. NLP-阅读理解:“阅读理解”综述(Machine Reading Comprehension, MRC)【完形填空、多项选择、抽取式(答案片段抽取)、生成式(自由作答)】《机器阅读理解数据集》

    <原始论文:Neural Machine Reading Comprehension: Methods and Trends> 一.阅读理解概述 所谓的机器阅读理解(Machine Rea ...

  9. 论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge

    论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge 论文下载:https:// ...

最新文章

  1. mysql数据库多级分类汇总_sql多级分类汇总实现介绍
  2. 广东安网2016:重拳挥出 打造安宁互联网环境
  3. 【剑指offer-Java版】41和为s的两个数字VS和为s的连续正数序列
  4. 判断男人成熟度16个新标准。
  5. 【搜索引擎基础知识2】网络爬虫的介绍
  6. SSM高级整合_非Maven控制版本下SSM高级整合
  7. angular ngoninit 刷新html页面_web前端入门到实战:实现html页面自动刷新
  8. text 两端对齐 小程序_leetcode 68 文本左右对齐
  9. T-SQL字符串相加之后被截断的那点事
  10. 自动化运维之kickstart自动化部署安装操作系统
  11. linux 分区顺序 boot,关于Liunx下的硬盘分区问题(/boot分区)?
  12. 浅谈-国标GB28181协议抓包内容分析(一)
  13. 安全工具(免费杀毒软件Avast、免费防火墙费尔、免费木马清理工具arswp,AVG/Ewido,超级兔子)...
  14. vtk实现一个简易的RubberBand 并求矩形内部hu平均值和最值
  15. Leetcode 1235. 规划兼职工作(DAY 73) ---- 动态规划学习期(上午去上高数课了 课下老师说上次旷课不扣平时分嘻嘻)
  16. 用计算机写作文教学反思,语文作文教学反思(精选6篇)
  17. OBD(On-Board-Diagnose)
  18. java计算机毕业设计Web网上购书后台管理系统MyBatis+系统+LW文档+源码+调试部署
  19. 怎么在计算机里找到CF里保存的视频,Win10电脑上查看穿越火线录制保存视频的具体方法...
  20. # 学习记录1(C#-解决内存泄漏的几种方法)

热门文章

  1. Android开发之路之 webview
  2. 华为eNsp S5700组网配置
  3. pygame--图片随键盘移动
  4. 树洞程序php,Anonymous – 秘密 PHP树洞程序
  5. 3D打印成型技术:看得见摸得着的真实
  6. 浏览器访问Linux的Tomcat
  7. 干货来袭!腾讯T4大佬,十分钟教你用svg做出精美的动画
  8. 高级驾驶辅助系统ADAS简介
  9. antv图形二次渲染刷新问题
  10. 2015中国智能硬件蛋年创新大会手记