COLING 2020 | 面向机器阅读理解的双向认知思维网络
©PaperWeekly 原创 · 作者|张琨
学校|中国科学技术大学博士生
研究方向|自然语言处理
Motivation
近两年,大家纷纷在提我们正在从感知智能向认知智能迈进,模型需要具备认知理解推理能力。研究人员也从这方面进行了深入研究。一个非常直观的方法就是借鉴人的认知行为方式,使用神经网络进行模拟,从而提升模型的效果,之前就有研究人员在Drr-net: Dynamic re-read network for sentence semantic matching [1] 文章中实现了人类的重读机制。
论文标题:
Bi-directional Cognitive Thinking Network for Machine Reading Comprehension
论文作者:
Wei Peng / Yue Hu / Luxi Xing / Yuqiang Xie / Jing Yu / Yajing Sun / Xiangpeng Wei
论文链接:
https://arxiv.org/abs/2010.10286
在本文中,作者同样是基于这个想法,借鉴人类的认知行为习惯进行机器阅读理解。因此本文需要解决的问题就是:借鉴哪些行为习惯,如何借鉴,如何与机器阅读理解模型进行融合。
Model
了解了本文的基本想法,那么在介绍本文提出的方法之前,首先介绍本文要借鉴的两个认知行为习惯:
2.1 认知行为习惯
1. inertial thinking,惯性思维:一种方便快捷的思维方法,根据之前的经验和想法去思考和解决问题;
2. reverse thinking,逆向思维:和惯性思维相反,利用和常规思路相反的形式去思考和解决问题。
将这两种思想应用到阅读理解任务中,以上图为例:如果是惯性思维的话,那就是根据问题选出答案,如果是逆向思维的话,就是根据答案和段落学习到需要关注的点是两个方面,包括 can pregnant women eat loquat 和what is the benefit to eat loquat for pregnant women 。
2.2 Bi-directional Cognitive Thinking Network
下图是整个模型的框架图,其中最主要的是这两部分 Backward Encoder 和 Forward Encoder。模型的训练过程也主要包含两阶段,Reverse Thinking Training :该阶段主要通过答案和段落推理问题是什么;Retraining with Inertial Thinking:在已有的逆向思维的结果上,通过重新分析给定段落和问题实现最终的答案的生成。
1. Reverse Thinking Training
该部分的主要过程可以由下图实现,作者通过一系列复杂的操作最终模拟了人的逆向思维。
首先是输入,将段落和答案拼接到一起得到作为一个输入,同时为了根据答案确定段落中的相关信息,将答案独自编码,得到语义表示向量,该过程可以表示为如下形式:
之后,模型要模拟人的逆向思维过程,用于挖掘 U 和 V 之间(答案和段落)的关联,因此这里使用了一个堆叠的模块,其中 都是随机初始化,在第 j 步,整个过程可以表示为,首先 和 U 进行拼接,然后经过一个非线性变化,接下来通过 attention 计算得到答案开始的概率分布 ,然后利用 去得到更新之后的起始推理向量 ,整个过程可以表示为如下形式:
得到起始推理向量表示之后,类似的方法计算得到终止推理表示向量:
与此同时,还会使用得到的起始与终止推理表示向量去更新段落的表示,即模型图中的第 5 步:
除此之外,作者还加了门控结构用于控制逆向思维在整个模型中的强度:
其中的权重来自于 BERT 的 multi-head attention 权重。接下来通过池化操作就得到了模拟逆向思维的输出:
最后,通过融合操作和解码就实现了答案的生成过程:
整个过程都是一个逆向思维的过程,同时为了模拟正向思维(惯性思维)的过程,作者使用了类似的方法对整个模型进行了重新的训练,只是在一些细节处理上进行了调整。为了方便阅读,这里不再进行展示,具体细节可以参考原论文。
Experiments
为了验证整个模型的效果,作者在一个中文的数据集 DuReader 上进行了模型的验证,这部分还是有一些不足的,只进行了一个数据的验证,如果能够进行多个数据集的验证就能够更加有效的证明模型的效果了。相关的实验结果如下图。
相关的实验内容还是都做了的,也证明了模型的效果。
Conclusion
本文从模拟人类认知行为的角度入手,通过设计神经网络模拟逆向思维和惯性思维实现了机器阅读理解模型效果的提升,理论切入和介绍还是很吸引人的,只是模型设计过于复杂,很多地方没有详尽的解释,同时实验相对较少,如果能够进行更充分的实验,就更好了。
参考文献
[1] https://ojs.aaai.org/index.php/AAAI/article/view/4734/4612
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
COLING 2020 | 面向机器阅读理解的双向认知思维网络相关推荐
- ACL 2020 | 基于机器阅读理解框架的命名实体识别方法
论文标题: A Unified MRC Framework for Named Entity Recognition 论文作者: Xiaoya Li, Jingrong Feng, Jiwei Li ...
- 机器阅读理解中文章和问题的深度学习表示方法
/*版权声明:可以任意转载,转载时请标明文章原始出处和作者信息.*/ author: 张俊林 注:本文是<深度学习解决机器阅读理解任务的研究进展>节选,该文将于近期在"深度学习大 ...
- 深度学习技术在机器阅读理解应用的研究进展
深度学习解决机器阅读理解任务的研究进展:https://blog.csdn.net/malefactor/article/details/52832134 深度学习技术在机器阅读理解应用的研究进展:h ...
- 深度学习解决机器阅读理解任务的研究进展
/*版权声明:可以任意转载,转载时请标明文章原始出处和作者信息.*/ author: 张俊林 关于阅读理解,相信大家都不陌生,我们接受的传统语文教育中阅读理解是非常常规的考试内容,一般形式就是给你一篇 ...
- 机器阅读理解MRC论文整理
机器阅读理解MRC论文整理 最近发现一篇机器阅读理解整理的博客机器阅读理解整理整理于2020年 论文代码查找网站: https://dblp.uni-trier.de/db/conf/acl/acl2 ...
- 【NLP】面向对话的机器阅读理解任务(Dialogue MRC)相关论文整理
来自 | 知乎 作者 | 李家琦 链接|https://zhuanlan.zhihu.com/p/410984053 本文已获作者授权,未经许可禁止二次转载 Dialogue-based Machin ...
- 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)
谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...
- 信息抽取(一)机器阅读理解——样本数据处理与Baseline模型搭建训练(2020语言与智能技术竞赛)
机器阅读理解--样本数据处理与Baseline模型搭建训练 前言 样本数据处理 数据测试 模型部分 模型构建 模型训练 部分推理结果 总结 前言 最近看到今年早些时候百度的"2020语言与智 ...
- 2021语言与智能技术竞赛:机器阅读理解任务 实验报告
2021语言与智能技术竞赛:机器阅读理解任务 --实验报告 1. 比赛介绍 2. 赛题说明 2.1 样例 2.2 数据说明 3. 数据集介绍 3.1 数据介绍 3.2 数据样本 4. 模型介绍 4.1 ...
最新文章
- VSCode环境下配置ESLint 对Vue单文件的检测
- TensorFlow、PyTorch夹缝之下:后浪的进击和野望
- 强势推荐8款良心实用软件,让人心动!
- bBank 开源Javascript框架(最后更新:2010-7-6)
- 机器人(机械臂)动力学建模方法(Newton-Euler equation)
- java HelloWorld 编程风格实践
- Windows 技术篇-win10总是提示“目前无法访问 SmartScreen”问题解决方法,关闭“目前无法访问 SmartScreen”电脑提示方法演示
- php增加mysql用户_PHP+MYSQL实现用户的增删改查_PHP
- 什么是梯度爆炸/梯度消失?
- lucky前面加a还是an_微信昵称前加个“A” 不是微商就是销售?看看这个“A”的含义!...
- 好奇怪呀后面加什么标点_狗狗吃饭时奇怪的小动作,你知道代表什么吗?做个懂狗的好主人...
- jquery-幻灯片的移动分析
- [极客大挑战 2019]EasySQL
- 利用NSight进行交叉编译
- Linux 命令行下载命令 Axel 多线程下载
- linux内核调度算法(2)--CPU时间片如何分配
- dataframe列互换 python_统计学原理之python数据分析基础
- python 字体颜色_Python字体颜色设置
- 抖音短视频去水印网站 视频消重防删免费
- 我的周刊(第028期)
热门文章
- bin文件怎么转换成文本文档_怎么把视频文件转换成MP3?这款工具六步帮你实现...
- python修复不了_修复 Python version 2.6 required, which was not found in the registry.
- gradle多项目 svn依赖
- 路飞学城Python-Day9
- 冒泡算法的三种JavaScript表示
- t检验自由度的意义_T检验、F检验和统计学意义
- isight参数优化理论与实例详解_详解oracle数据库优化参数--cursor_sharing
- 电子测量与仪器第四版pdf_固定资产管理系统_资产分类名称(电子和通信测量分析仪器篇)...
- 计算机中隐藏的文件找不到了怎么办,我的计算机找不到隐藏文件,是怎么回事啊...
- linux 虚拟机新增磁盘,linux(虚拟机)下新增磁盘配置