作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨自然语言处理

论文动机

机器阅读理解一直是自然语言处理领域的一个非常重要的研究方向,目前虽然在一些给定条件下,机器学习的方法可以取得和人类类似甚至好于人类的效果,但在实际的阅读条件下,两者之间还存在比较大的差异。人类的阅读习惯在一定程度上仍对机器阅读理解模型有启发作用。

基于这样的一个出发点,本文的作者通过收集眼动数据对人类的阅读行为模式进行分析,并尝试通过回答以下三个问题对人类的阅读行为模式进行分析:

1. 在阅读理解任务中,人类是如何阅读和寻找答案的?

2. 在阅读理解任务中,什么因素影响着人类的注意力分配机制?

3. 人类的阅读行为是否有助于提高机器学习模型在阅读理解任务上的表现?

用户研究分析

为了回答以上问题,对用户行为进行详细分析,本文首先对用户进行了相关研究,整体的数据手机过程如下图所示:

首先,作者将阅读理解数据集中的问题根据类型分为不同的类型,每个任务集包含 15 个问题,涵盖 Description, Entity and Yesno (5 questions for each), cover both Fact (8 questions) ,and Opinion (7 questions) categories,然后每个参与者经过培训之后,独立回答这些问题,如上图所示,每个用户回答问题需要经过一下四个阶段:

1. 首先看到一个问题,在阅读完问题之后,他们被要求复写问题,并对问题进行评价(预先定义的 5 个评价标准);

2. 阅读对应文档,并在文档中找到最适合的答案,在该过程中用户不能再看到问题;

3. 写出对应的答案,答案需要精准,并且来自文档或者被文档中的片段支持,该过程不能引入用户自己的先验知识;

4. 再次提供问题和文档,用户需要标注出答案对应的证据,同时还需要标注出每个证据的有用程度(预先定义)如果文档中没有答案,则不需要标出任何内容。

在 1,2 阶段,作者还通过眼动仪来收集用户的注意力分配信息数据,通过这些方法,作者就收集到了用户在阅读理解中的行为数据,并通过对这些数据的分析回答之前提出的三个问题。

问题1:在阅读理解任务中,人类是如何阅读和寻找答案的?

上图展示了人类在阅读过程中的注意力分配,从这个图中可以看出,无论文档中是否有答案,用户更习惯于从头到尾进行阅读。之前已有研究表明了人类的阅读行为包含三类:down,up 和 skip,down 就是顺序阅读,up就是往回读,skip就是跳过一些内容读。作者也对用户的这三种行为进行了分析:

从上图中可以看出,用户更倾向于在刚开始阅读时按顺序阅读,在之后的阅读中跳过不重要的内容,只关注最重要的内容。同时在上图中的 c 中可以看出,用户会花费更多的时间在用候选答案的部分,更少的关注没有答案的文本。当文档中包含答案时,可以看到 up 和 skip 的行为会更常见,也就是用户需要对答案进行验证。但当文档中没有答案时,只有 down 的行为会增加。

问题2:在阅读理解任务中,什么因素影响着人类的注意力分配机制?

为了回答该问题,作者分别对影响用户行为的四种主要因素进行了分析:答案,位置,词的类别和匹配信号。

从这个表中可以看出,用户会更倾向于关注包含答案的内容,而在不包含答案的部分,用户的关注时间都相对比较短。

该图展示了答案词出现的位置对用户造成的影响,可以看出,答案更多的出现的文章的前部。对不存在答案的文档,可以看出用户的关注在文档前 80% 变动并不大,而在文档结尾有比较大的下降。而当文档中有答案时,可以看出注意力的分布和答案在文档中的分布是类似的,也就是答案最终影响了用户的关注位置。

词的属性上,作者通过研究 IDF 和词性进行了相关的分析,可以看出1)一个词的 IDF 越大,受到的关注度越大,因为 IDF 越大,这个词出现的频率阅读,说明用户更关注那些不常见的词;2)在用户的阅读过程中,用户更关注名词,主要是名词包含了更有用的信息。

在匹配信号中可以看出,那些和问题语义相似度更高的词会收获更多的用户关注。

问题3:人类的阅读行为是否有助于提高机器学习模型在阅读理解任务上的表现?

在该问题中,作者提出了一种两阶段的模型,在第一阶段搜索可能的答案,在第二阶段通过比较和验证生成最后的答案,具体模型效果如下图所示:

总结

本文针对用户的阅读行为模式进行了详细分析,通过具体的行为数据解释了用户的复杂阅读习惯,这其中还是有很多值得我们借鉴的,由于本文主要针对用户的阅读行为进行分析,因此相关的模型部分相对少。但文中总结出的相关内容信息还是有很多可以学习的,还是很有意思的。

点击以下标题查看更多往期内容:

  • 资源:10份机器阅读理解数据集 | 论文集精选

  • 基于CNN的阅读理解式问答模型:DGCNN

  • 利用GAN进行故事型常识阅读理解

  • 近期值得读的知识图谱论文,这里帮你总结好了

  • SIGIR 2019 | 结合答案信息的重复问题检测方法

  • 后BERT时代的那些NLP预训练模型

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文

SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解相关推荐

  1. 让机器读懂人类:探索问答系统和机器阅读理解

    学习内容来自 : CSDN在线直播教程 林德康 一.问答系统概念 问答系统在搜索引擎中的应用 略- 基于知识图谱的问答系统 high precision great for head queries ...

  2. 【咪咕阅读商业模式】咪咕阅读商业模式

  3. SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统

    作者丨张琨 学校丨中国科学技术大学博士生 研究方向丨自然语言处理 论文动机 对话系统一直是自然语言理解领域一个重要的研究内容,它可以使人们更便捷的与机器进行交互,多模态的对话系统就是其中非常重要的一个 ...

  4. 基于神经网络的机器阅读理解综述学习笔记

    基于神经网络的机器阅读理解综述学习笔记 一.机器阅读理解的任务定义 1.问题描述 机器阅读理解任务可以形式化成一个有监督的学习问题:给出三元组形式的训练数据(C,Q,A),其中,C 表示段落,Q 表示 ...

  5. 机器阅读(一)--整体概述

    https://plmsmile.github.io/2019/03/30/54-mrc-models/ 主要包含:机器阅读的起因和发展历史:MRC数学形式:MRC与QA的区别:MRC的常见数据集和关 ...

  6. 荣获百度机器阅读理解第一名的团队,他们想分享这些给你!

    日前,由中国中文信息学会 (CIPS).中国计算机学会 (CCF) 和百度公司联合举办的「2018 机器阅读理解技术竞赛」落下帷幕,Naturali 奇点机智从国内外 800 多支队伍中脱颖而出,获得 ...

  7. 机器阅读理解首次超越人类!云从刷新自然语言处理新纪录

    媒体动态发展历程资质荣誉人才招聘 机器阅读理解首次超越人类!云从刷新自然语言处理新纪录 2019-03-11 10:06 浏览:454 近日,云从科技和上海交通大学在自然语言处理领域取得重大突破,在卡 ...

  8. 科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类

    近日,科大讯飞再次登上 SQuAD 2.0 挑战赛榜首,不过这次顺带刷新了一下纪录:在EM(精准匹配率)和F1(模糊匹配率)两项指标上全面超越人类平均水平,分别达到87.147和89.474.其中EM ...

  9. ICLR 2019 | 基于复杂空间关系旋转的知识表示方法

    作者丨王金梦 学校丨东南大学硕士生 研究方向丨知识图谱.表示学习 动机 知识图谱通常是不完全的,因此预测缺失的链路是一项基本问题,在链路预测任务上,已有大量的研究学习实体和关系的低维表示,这些方法的普 ...

最新文章

  1. 使用git进行源代码管理
  2. JSP具体条款——response对象
  3. 传输滤波器的选型及使用说明
  4. 批处理如何清除文本文档里面的重复行
  5. 制作镜像包时遇到的模块加载错误的问题
  6. PS教程第二十课:有了选区就有了界限
  7. 【软件质量】软件质量特性因子
  8. Vue2 模板template的四种写法总结
  9. POJ 1159 - Palindrome 优化空间LCS
  10. ttc文件linux安装,centos系统安装中文字体几种方法
  11. 如何在opengl用代码绘制英文_如何用AIPS直接绘制服装款式图(线稿)
  12. Codeforces 364D Ghd(随机化)
  13. 华为云迁移工具推荐最佳实践:Hyper-V虚拟化迁移到华为云
  14. 扫描二维码启动微信打开特定页面
  15. 1-14 Burpsuite Repeater介绍
  16. 点餐小程序【源码好优多】
  17. 基于Quartus Prime的NiosII基础开发流程
  18. python的split()函数!
  19. 详解 Benders 分解与一个算例的 python 代码
  20. iOS开发经常使用国外站点清单

热门文章

  1. 计算机网络安全六要素,六要素教学在计算机网络教学中的探索与反思
  2. 分分钟带你欣赏ES6语法糖
  3. 关于小程序取data- 的值的问题
  4. linux笔记_文件搜索命令
  5. Python函数(2)
  6. Setting composer minimum stability for your application
  7. img title属性值利用#13换行
  8. 斯特林数第一类数的应用 hdu3625
  9. 文件 在线压缩 技术
  10. php mysql生成excel文件,PHP导出MySQL数据到Excel文件简单示例