REPT: Bridging Language Models and Machine Reading Comprehension via Retrieval-Based Pre-training 阅读
发顺丰
目录
motivation
方法
预处理
任务定义
SSP任务
RMLM任务
模型
Query表示
SSP
RELM
优化函数
Fine tune阶段
Multiple Choice QA
motivation
PLM更注重通用的语义表示,MRC需要从多个文档或句子中抽取证据。
通过Surrounding Sentences Prediction(SSP) 和 Retrieval based Masked Language Modeling (RMLM)来弥补PLM和MRC之间的gap,增强PLM的证据抽取能力,在MRC任务上可以很好的迁移这些能力。
方法
预处理
数据集:英文维基百科,2020/5/1。用bert tokenized切成500个token一个segment。每个segment看成一个doc,切成句。句子token数小于5的拼到前面去。
每个doc,选30%最重要的句子作为query。实体或名词出现的次数越多越重要,一个句子中包含的实体和名词重要度的累加为句子重要度。将其中的被提到的实体或和名词mask,防止模型学到shortcut
任务定义
前t个为从doc中抽取的query。
SSP任务
从doc中抽取几个句子作为query,剩下的合并作为passage,模型预测每个query的前一句和后一句。为了避免学到shortcut,将query中重复出现的实体或名词按比例mask掉。
BERT maask 90%实体 30%名词,
ROBERTa mask 90%实体 30%名词, 和90%实体 90%名词两份数据集,训练的时候混合一起训练。
预测query原先的位置,函数r是输出query原先的顺序。
SSP任务是要预测query的在原来的文档中前一句和后一句
RMLM任务
还原mask掉的实体或名词
模型
Query表示
在预训练阶段,复用了上述公式,
来生成任务特定的query表示,来缓解overfit
SSP
query在hidden上做singe-head attention,获取证据信息,dense获得每个句子对query的得分。
RELM
z表示query中被mask的token的index。
函数f是 normalized的两层dense,
优化函数
a,b表示query对应的原始doc中的前一句和后一句index,其概率分布如下。
SSP的目标函数
RMLM中,query被mask的token 的index集合为,golden集合为
恢复mask的token概率为
x‘ 表示词表中的token ,e(x)为x的word embeding。
目标函数为
Fine tune阶段
对于multiple choice QA,把问题和选项拼起来最为query。每个example可以i变成
query的表示仍然使用Query表示部分的多头注意力。证据抽取过程不同的任务不同。
Multiple Choice QA
每个句子的表示为
对于Multi-RC数据集,不定项选择题,每个选项二分类
Span Extraction
实验结果
BERT w.M 继续用MLM任务,维基百科数据训BERT
BERT-Q 加入多头注意力机制获取query表示
BERT-Q w. R/S 在BERT-Q的基础上,用SSP和RMLM任务pretrain
BERT-Q w. R 用RMLM任务pretrain
相比于base,性能提升比较明显。但是加入了两个预训练任务进行post train。
1. 只用多头注意力机制获取query表示性能提升不明显甚至下降,必须配合预训练任务,
2. 用MLMpost train,性能提升有限
3. 两个任务一起使用性能好,只用一个效果不明显,只用RMLM性能下降
在Span Extraction 任务上 Multi-RC
GRR 是Graph Recurrent Retriever
在SQuAD 2.0
在Multi-RC上 证据抽取的准召率。
REPT: Bridging Language Models and Machine Reading Comprehension via Retrieval-Based Pre-training 阅读相关推荐
- NLP-阅读理解:“阅读理解”综述(Machine Reading Comprehension, MRC)【完形填空、多项选择、抽取式(答案片段抽取)、生成式(自由作答)】《机器阅读理解数据集》
<原始论文:Neural Machine Reading Comprehension: Methods and Trends> 一.阅读理解概述 所谓的机器阅读理解(Machine Rea ...
- [论文笔记-1]Aspect-based Sentiment Analysis as Machine Reading Comprehension
题目.作者 一.Abstract 1. 现有的研究通常通过堆叠多个神经模块来处理基于方面的情感分析,这不可避免地导致严重的错误传播 2. 本文提出了MRCOOL: MRC-PrOmpt mOdeL框架 ...
- Read + Verify: Machine Reading Comprehension with Unanswerable Questions 论文阅读笔记
原文链接:http://cn.arxiv.org/pdf/1808.05759 Read + Verify: Machine Reading Comprehension with Unanswerab ...
- 【论文阅读】Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension
Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension 论文:https://arxiv.org/abs/2 ...
- 初识机器阅读理解(Machine Reading Comprehension)
机器阅读理解任务理解与文献查阅 参考博客: https://www.jiqizhixin.com/articles/2018-11-26-10 https://hanxiao.github.io/20 ...
- 机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势
Neural Machine Reading Comprehension:Methods and Trends Author:Shanshan Liu , Xin Zhang , Sheng Zhan ...
- Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction 论文阅读
Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction 南开大学 AAAI 2021 论 ...
- 论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge
论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge 论文下载:https:// ...
- 解读ACL 2020的一篇paper (Recurrent Chunking Mechanisms for Long-text machine reading comprehension)的源码
本文的目的是解读Recurrent Chunking Mechanisms for Long-text machine reading comprehension这篇论文的GitHub上的代码. 我会 ...
最新文章
- 原创 | 斯坦福Machine Learning with Graphs 学习笔记(第一讲)
- python的cfg是什么模块_cfg4py:一个严肃的Python配置模块应有的风格-层级式、部署环境自适应、自动补全...
- c语言符合运算符的运算顺序,二 如何学习C语言的运算符和运算顺序
- 次方求模 http://acm.nyist.net/JudgeOnline/problem.php?pid=102
- How to install sharepoint server 2010 sp2 in window 7 x64
- 15个最受欢迎的Python开源框架
- 推流中转服务器,视频推流服务器EasyRTMPLive拉转推过程当中遇到复杂目的地址解决方法?...
- 网页常用分享代码大全——整理摘抄至他人嘿嘿
- java 8 lamda,Java8中你可能不知道的一些地方之Lambda表达式实战
- Hive 中日志的存放位置
- 某烟草局绩效考核系统分析设计清单
- ZZULIOJ部分题目解答
- rcnn fastrcnn fasterrcnn总结
- mysql分区语录_MYSQL分区管理
- Fresco 使用要点(不定期更新)
- python 正则表达式爬图片_利用python正则表达式爬取图片
- maven pom.xml解析、命令说明、依赖传递、继承、聚合、properties、build、依赖范围、版本仲裁、profile
- 第三方SDK开发入门
- NXP LPC1768最小系统板Keil开发环境流程演示
- Linux下Chelsio T5调试方法