©PaperWeekly 原创 · 作者|蔡杰

学校|北京大学硕士生

研究方向|QA

论文标题:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

论文来源:ICML 2020

论文链接:https://arxiv.org/abs/1912.08777

代码链接:https://github.com/google-research/pegasus

概述

文章提出了一种专门针对文本摘要生成的预训练方法,并提出了一种 GSG (Gap Sentence Generation) 的生成方法,该方法在模型的 fine-tune 阶段只需要 1000 个 example 就能达到 12 个数据集的 SOTA,这个结果还是很抢眼的,值得仔细读一读。

首先看一看模型图:

▲ 模型图

论文里举的例子里有三句话,encode 的时候将中间的那句话用 符号代替,前后两个句子中随机找一些单词,用 代替。然后预训练的时候,encoder 的任务就是去预测前后两个句子中的 位置上原来的单词,decoder 的任务就是去生成中间的 覆盖的一整句话。整体的思路很简单,图很清晰。

有一个个人觉得奇怪的地方就是看到模型图的时候猜测这里的 是每个词对应一个,应该有 sentence_length 个 ,但是文章说的是只用一个 来代表整个句子,这样的话可能会丢失句子这个 的句子的长度信息,对于前后句子的相对位置也会有影响。如果我的猜测有不正确的地方还请大佬们指正。

论文中提到,pre-train 的 task 如果和 down-stream 的 task 越接近,那 down-stream 的 task 的效果也就会更好,按理说这是个大家都知道的结论,但是没想到这个效果更好竟然也会体现在样本的数量上,只需要 1000 个 examples 就能超过 SOTA,这是结论是我没有想到的。

为了让 pre-train 时候的 task 更接近文本摘要任务,选择 Gap_Sentence( 代表的句子)的时候作者用了一些策略来选择。

  • Random 随机选择 m 个句子来 mask

  • Lead 选择前 m 个句子来 mask

  • Principle 给每个句子进行打分,计算每个句子和剩下部分内容的 ROUGE1-F1 值,从高到低取 m 个句子来 mask

▲ 不同策略选择的句子

作者预训练的时候训练了两个版本,一个版本是单独的 encoder,只用了 MLM(mask language model)作为 target,在 decode 阶段 decoder 和 encoder 共享参数。

另一个版本则是两个 target 一起训练(MLM 和 GSG)。MLM 这个 target 在前期(100k-200k steps)还是很管用的,但是到了后期反而会对 performance 造成影响,所以在 large 模型中,作者直接舍弃了这个 MLM 这个 target。

数据

预训练 

finetune

实验

图 3 可以看出,使用 HugeNews 来 pre-train 的模型在使用前两个数据集 fine-tune 之后效果更好,在后两个数据集反之。说明预训练预料如果和下游任务接近,那效果会更好。(这不是很显然的吗。。。

图4(a)对比了 6 种不同的 GSG 策略,Ind-Orig 获得了最佳性能,其次是 Seq-Uniq。Ind-Orig 和 Seq-Uniq 在四个下游数据集始终是最好的(或相似的) “Random” 和 “Lead” 在两个新闻数据集上的表现都不错,但是在两个非新闻数据集上,表现并不好。结果表明选择 principal 句子最适合下游摘要任务。

上图显示了不同的选取间隔句子比例带来的不同效果, 最佳性能的 GSR 低于 50%。间隔语句为 15% 的模型在 CNN / DailyMail 上的 ROUGE 得分最高,而XSum / Reddit TIFU 和 WikiHow 分别为 30% 和 45% 时表现更好。

不同的词表大小,带来的收益也是不一样的。

再看看 large 模型的效果:

图 6 显示的是 low-resource 微调的结果。实线是在 0(zero-shot),10,100、1k,10k 的示例。虚线是 Transformer-base 模型,其大小与 PEGASUS-base 相同,并且经过完整的监督数据集训练,但无需预训练。

这就是论文中提到的只需要 1000 个 example,便可以超过 SOTA。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

ICML 2020 | Google提出最强生成式摘要预训练模型——天马相关推荐

  1. 独家揭秘!史上最强中文NLP预训练模型 | 直播报名中

    编辑部 发自 凹非寺  量子位 报道 | 公众号 QbitAI 随着AI的快速发展,相信"深度学习"对大部分人来说已经不是一个陌生的概念了.通过深度学习,计算机能够在围棋.电子竞技 ...

  2. 直播回顾 | 最强中文NLP预训练模型艾尼ERNIE官方揭秘

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI "最近刚好在用ERNIE写毕业论文" 看了上面热火的讨论,你一定很好奇"艾尼"."ERNI ...

  3. 【视频】超越BERT的最强中文NLP预训练模型艾尼ERNIE官方揭秘

    分章节视频链接:http://abcxueyuan.cloud.baidu.com/#/course_detail?id=15076&courseId=15076 完整视频链接:http:// ...

  4. 最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】

    "最近刚好在用ERNIE写毕业论文" "感觉还挺厉害的" "为什么叫ERNIE啊,这名字有什么深意吗?" "我想让艾尼帮我写作业& ...

  5. 公开课视频(七):最强中文NLP预训练模型艾尼ERNIE官方揭秘

    "最近刚好在用ERNIE写毕业论文" "感觉还挺厉害的" "为什么叫ERNIE啊,这名字有什么深意吗?" "我想让艾尼帮我写作业& ...

  6. 一文读懂最强中文NLP预训练模型ERNIE

    基于飞桨开源的持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果.本文带你进一步深入了解ER ...

  7. 视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架.HERO以层次结构编码多模态输入,其中视频帧的局部上下文 通过多模态融合被跨模态Tr ...

  8. NLP-预训练模型-2019-NLU+NLG:T5【Text-to-Text 预训练模型超大规模探索】【 微调T5用于文本摘要】

    <原始论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer> 2019年 ...

  9. 参数量110亿,附赠750GB数据集,Google提NLP预训练模型T5

    整理 | Just,夕颜 出品 | AI科技大本营(ID:rgznai100) 近日,Google 在最新一篇共有 53 页的论文<Exploring the Limits of Transfe ...

最新文章

  1. Linux Find 命令精通指南
  2. 百度要回归 A 股?
  3. 台达asda-b2伺服驱动器说明书_REXROTH力士乐DKC系列伺服放大器LED灯都
  4. go语言学习(7)锁
  5. C# 大型对象堆学习总结
  6. Controls 属性与继承 TShape 类的小练习
  7. [2019 牛客CSP-S提高组赛前集训营4题解] 复读数组(数论)+ 路径计数机(数上DP)+ 排列计数机(线段树+二项式定理)
  8. 小程序真机测试「启动参数」解析出错问题
  9. zoj3494BCD Code(ac自动机+数位dp)
  10. linux 对文件类型的判断
  11. 异贝,通过移动互联网技术,为中小微实体企业联盟、线上链接、线上线下自定义营销方案推送。案例14
  12. 整体资产评估需要资料清单
  13. 攻防世界Reverse-maze
  14. 用一个电位器调节音调的简单电路
  15. openssl 1.0.2k-fips 升级到 openssl-3.0.5
  16. DHT11温湿度传感器(基于树莓派)
  17. 基于战舰V3的LCD显示实验详解和剖析
  18. 在excel 中如何让一串数字真正的变为时间格式
  19. 第1章 计算机系统漫游
  20. 为什么说石油币是一场“国家骗局”?

热门文章

  1. java sql string_JAVA String转化成java.sql.date和java.sql.time方法示例
  2. centos sudo不能运行_Linux操作系统中sudo的使用和sudoers配置
  3. 数字图像处理基本运算
  4. ubuntu之使用sublime text3搭建Python IDE
  5. Codeforces Round #377 (Div. 2) 732A B C D E F
  6. SQL 2005各版本的区别
  7. containers文件夹可以删除吗_电脑进行C盘清理,appdata文件夹可以删除吗?
  8. linux tcp keepalive,[20170504]Linux TCP keepalive timers.txt
  9. java中打印输出数组内容的三种方式
  10. python 并行计算库_Python 大规模数据存储与读取、并行计算:Dask库简述