PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization论文笔记
阅读动机:dst和gsg有极大的关联性
pegasus预训练模型任务:将input的document内重要的句子mask掉,output是由留下的句子生成的新句子,有点类似于extractive summary
extractive summary:仅仅从input里面复制信息 abstractive summary:会生成新的词语(好的abstractive summary不仅包含了基本的input信息 而且语句流畅度好)
早前的工作基本都集中在如何做出高质量的数据集,几乎没有对模型的系统评估工作。该论文则是预训练abstractive summarization,然后在12个下游数据集上进行evaluate
该预训练任务GSG十分类似dst,或者换言之,dst就是一个summary-like generation
和以往的MASS\BART\T5模型不同,这个新模型不是把小的text span给mask掉 而是把整个句子给抹掉,而且句子也不是随机选择的,是选取了最重要的句子进行擦除,并且output不会包含原有的句子,只会是新生成的句子。
本文的杰出贡献之一是做了一个新的预训练任务GSG gap sentence generation,为了对比,还是设置了bert 、bert+gsg作为对照组
设置及实验部分待精读
预训练任务
gap sentence generation 中random和lead方式选mask掉的句子不再赘述,值得一提的是principal方法:选取重要程度最高的m个句子,重要程度计算方式:句子xi和剩余句子的ROUGE1-F1分。Ind:句子分数是独立的 Seq:一种之前的方法,通过最大化rouge1-F1分序列化选择句子;在集合选择上,Uniq:n-grams Orig:对相同的n-grams两次计数,排列组合就能有四种principal
masked language model 和BERT一样 不赘述 结果是不会对下游任务有积极影响 数据集则不再赘述
实验部分
由于PEGASUS的规模过大,作者团队做了消融实验以节省时间和算力:PEGASUSbase(对比PEGASUSlarge encoder-decoder层数16->12 隐藏层1024->768,feedback layer4096->3072,attention head 16->12) 位置encoding:sin 优化策略:Adafactor (旨在减少显存占用) dropout率 0.1
下面具体记录下该消融实验细节:
实验用PEGASUSbase来评估预训练数据集、预训练任务、数据集size的结果,使用c4公开数据集
预训练的语料
经试验验证得到预训练steps数对下游任务有很好的提升作用,最终采取500k steps来进行消融实验
上图可以发现在如果domain关联性较大,下游任务也就做得越好,这个从逻辑上也不难理解
预训练任务
GSG:
六种设置的gsg 最终得到Ind-Org的mask设置效果最好,后四种肯定始终比random地mask掉效果要好。在新闻类的数据集上,lead的表现很好(不是news的就不行),在我看来这也合乎逻辑。gsg超参数里面gap sentence radio的选择也很重要,太低了挑战性低,最好的performance总是低于50%,选取30%给到PEGASUSlarge做实验
MLM:
在gsg的基础上,把剩下的句子的15%用token码掉,有意思的是mlm在大概前100k-200k时候会improve ind-org ,但是到后面就会成为一个局限,因此在PEGASUSlarge里面不用mlm
预训练词汇规模
选了bpe和unigram做对比,词汇规模大小设置如上,最终选了unigram 96k
在大模型上的实验
在所有下游数据集上的实验结果 可以看到PEGASUSlarge效果很好,超过了大部分previous SOTA
这是和其他预训练模型的对比,有一个问题就是一些数据集的input document远比设置的最大输入要长,但是position encoding又不会随着length的增大而更新,作者验证了这个假设:sin会在L=1024的时候耶效果很好,所以不需要担心这个(也就是简单一说)。小规模摘要数据集在预训练的收益更大。
零或低资源的摘要
只从每个数据集选取了前10、100、1000、10000个训练例子来模拟zero and low- resource settings,2000 steps
with batch size 256, learning rate 0.0005,100个训练例子就能在PEGASUS上取得transformer20k-200k规模全监督数据集上得到的效果。在个别的例子上,参数量只有GPT-2一半的pegasus效果比gpt-2好多了。总而言之就是低资源也表现很好。
质量和真人评估
生成的摘要流畅度和连贯性都很高,非常接近ground-truth,并且没有发现前人所谓的“最大似然会导致输出重复出现”的结果,因此没有做额外措施来避免这个重复。
文章还发现使用聚类rouge的perplexity- optimized模型会使得模型质量变高。真人评估也取得最好的评价
重合数据分析
这部分主要是衡量预训练数据集和下游任务数据集的重叠程度,并研究了下能不能通过记忆来获得更好的结果。通过计算下游测试机和预训练docements的rouge-2。验证是否通过记忆的方法:过滤掉测试集中超过规定分数(对照组是1.0 0.8)的例子,过滤后也没改变rouge分数,因此应该是没有清晰的memorization的
进一步改进该模型
在C4和HugeNews的混合集合上训练,权重由数量决定;动态地选择gsr;重要的句子的分数上随机抽样加入20%的噪音;吧step从500k加到1.5M;更新sentence piece来encoder
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization论文笔记相关推荐
- EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记
目录 简介 动机 方法 实验 简介 论文链接 动机 VQA中的语言先验问题,也可以说是OOD问题(Out-Of-Distribution).使用额外的单独分支减轻模型学得语言先验的一类方法试图消除所有 ...
- 【论文阅读】PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization 谷歌 ICML 2020 论文地址:h ...
- Missing Tag Identification in COTS RFID Systems: Bridging the Gap between Theory and Practice 理解+笔记
Missing Tag Identification in COTS RFID Systems: Bridging the Gap between Theory and Practice 理解+笔记+ ...
- [深度学习论文笔记][Face Recognition] DeepFace: Closing the Gap to Human-Level Performance in Face Verificati
Taigman, Yaniv, et al. "Deepface: Closing the gap to human-level performance in face verificati ...
- CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文也是一篇poster,作者出自浙大.阿里巴巴和电科大. 本文提出了一个新的task--STVG(Spatio-Temporal Video Groundi ...
- 论文笔记 OHEM: Training Region-based Object Detectors with Online Hard Example Mining
CVPR2016的文章,CMU与rbg大神的合作.原谅我一直没有对这篇文章做一个笔记~~ 文章提出了一种通过online hard example mining(OHEM)算法训练基于区域的卷积检测算 ...
- 论文笔记--3D human pose estimation in video with temporal convolutions and semi-supervised training
3D human pose estimation in video with temporal convolutions and semi-supervised training(利用时间卷积和半监督 ...
- AAAI2018-Long Text Generation via Adversarial Training with Leaked Information论文笔记
这篇文章主要是名为 LeakGAN 的模型结构,同时处理 D 反馈信息量不足和反馈稀疏的两个问题.LeakGAN 就是一种让鉴别器 D 提供更多信息给生成器 G 的新方式,我自己的笔记: 转自:htt ...
- GAN异常检测论文笔记(一)《GANomaly: Semi-Supervised Anomaly Detection via Adversarial Training》
0 Abstract: 通过使用一个联合学习高维图像空间的生成和潜伏空间的推理的生成对抗性网络,引入了这种新型的异常检测模型.在生成器网络中采用编码器-解码器-编码器子网络,使模型能够将输入图像映射为 ...
- Semi-Supervised Semantic Segmentation with Cross-Consistency Training论文笔记
文章标题:Semi-Supervised Semantic Segmentation with Cross-Consistency Training 文章地址:https://arxiv.org/ab ...
最新文章
- java 类的执行顺序_java类加载的顺序
- 使用ASP.NET Atlas编写显示真实进度的ProgressBar(进度条)控件
- R语言包_manipulate
- 服务器功率一般多少_单机柜供电能力提升后,选择1U服务器还是2U服务器?
- 设计模式之_Strategy_01
- 【ArcGIS风暴】何为动态投影?这次全面为您揭开ArcGIS中动态投影的神秘面纱!
- 安卓手机主题软件_手机看书神器!Amazon Kindleios、安卓软件
- 【Flink】Flink Elasticsearch client is not connected to any Elasticsearch nodes
- Linux常用命令--iconv
- 【网络教程】Windows字体发虚,字体不清晰怎么办?
- Dell笔记本Alienware Command Center监测不到CPU和内存数据
- bootstrap 检验 法 原理_系统发育分析背后的几种算法—距离法
- 如何开展o2o营销活动?
- MATLAB 绘制空间分布图,颜色代表数值(替代ArcGIS)
- iOS签名校验那些事儿
- 电脑辐射,电脑辐射危害大 五妙招正确防辐射
- JCR分区(WOS或Thomson Reuters或汤姆森 路透)和中科院分区(附网址及查询方法)...
- 严重 [http-nio-8080-exec-1] org.apache.catalina.core.ApplicationDispatcher.invoke Servlet[jsp]的Servlet
- 施乐维修服务器,富士施乐故障维修代码
- SQL 时间格式化到毫秒 取毫秒时间差值 单位为秒