晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

BERT、GPT-2、XLNet等通用语言模型已经展现了强大的威力,它们可以应付各类任务,比如文本生成、问答。当这些模型对各种语言任务进行微调时,可以达到SOTA性能。

以上这些NLP模型都是“通才”,虽然全面,但在面向特定任务时需要微调,训练数据集也十分庞大,非一般人所能承受。

如果开发一个非通用NLP模型,专门针对某项具体任务,在降低训练成本的同时,性能会不会提高呢?

这就是谷歌发布的“天马”(PEGASUS)模型,它专门为机器生成摘要而生,刷新了该领域的SOTA成绩,并被ICML 2020收录。

“天马”模型仅使用1000个样本进行训练,就能接近人类摘要的水平,大大减少了对监督数据的需求,创造了低成本使用的可能性。

从填空到生成摘要

PEGASUS的全称是:利用提取的间隙句进行摘要概括的预训练模型(Pre-training with Extracted Gap-sentences for Abstractive Summarization)。就是设计一种间隙句生成的自监督预训练目标,来改进生成摘要的微调性能。

在之前的NLP研究中,自监督预训练对下游的目标并不清楚,可能是文本生成、也可能是摘要提取,模型倾向于通用性。

而来自谷歌的研究者认为,自监督预训练目标越接近最终的下游任务,微调性能越好。

那论文标题中的间隙句(Gap-sentences)又是什么意思?

在“天马”模型的预训练中,研究者从一段文档中删掉一些句子,让模型进行恢复任务。这些隔空删掉的句子即为间隙句。

这样一项具有挑战性的任务促使模型学习发现一般事实的能力,以及学习如何提取从整个文档中获取的信息。

谷歌发现,选择“重要”句子去遮挡效果最好,这会使自监督样本的输出与摘要更加相似。

作者选择了12个不同数据集,内容丰富多样,包括新闻、科学论文、专利文件、短篇小说、电子邮件、法律文件和使用说明,表明该模型框架适用于各种主题。

与谷歌之前提出的T5对比,参数数量仅为T5的5%。

谷歌根据ROUGE标准对输出结果进行评判,通过查找与文档其余部分最相似的句子来自动识别这些句子。

ROUGE使用n元语法重叠来计算两个文本的相似度,分数从0到100。

1000个训练样本即超过人类

尽管PEGASUS在大型数据集上表现出了卓越的性能,但令人惊讶的是,“天马”模型并不需要大量的样本来进行微调,就可以达到近乎SOTA的性能。

下图展示了在四个选定的摘要数据集中,ROUGE得分与监督样本数量的关系。虚线表示具有全监督但没有预训练的Transformer编码器-解码器的性能。

与基线相比,即使仅用1000个微调样本,“天马”在大多数任务中的性能还是要好一些。要考虑到,在某些实际情况下,样本数量还要多几个数量级。

这种“样本效率”极大地提高了文本摘要模型的实用性,因为它大大降低了监督数据收集的规模和成本。

除了机器给出的ROUGE评分外,谷歌还进行了一项鉴别摘要的“图灵测试”。

谷歌将模型生成的摘要和人类提取的摘要放在一起,给用户进行评估。在3个不同数据集上进行的实验表明,打分的人有时会更喜欢机器生成的摘要。

当然,“天马”模型并非没有缺点,谷歌就找到了一个bug。

作者从XSum数据集中寻找了一段话,其中提到了英国4艘护卫舰的名字,通篇没有提到4,“天马”还是正确提取出了护卫舰数量信息。

军舰的数量从2~5的时候都没有问题,当数量增加到6时,“天马”错误地认为有7艘。这说明模型“符号推理”的数量有限。

最后,为了支持该持续研究并确保可重复性,谷歌在GitHub上发布了“天马”的代码、模型checkpoint以及其他汇总数据集。

传送门

博客地址:
https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html

论文地址:
https://arxiv.org/abs/1912.08777

代码地址:
https://github.com/google-research/pegasus

作者系网易新闻·网易号“各有态度”签约作者

「数据库」系列公开课开启,快来免费报名!

6月17号第一期直播,腾讯云数据库副总经理--王义成将全面剖析全球数据库的发展历程,分享如何将云计算、新基建、数据库的能力进行融合创新。此外还将结合实际金融案例,详细介绍腾讯云自研国产数据库TDSQL和TBase的产品核心架构和最佳实践。

之后的课程中,来自浪潮、蚂蚁集团的数据库业务负责人也将带来精彩分享,干货满满,全程免费参与,欢迎扫码报名~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

谷歌开源“穷人版”摘要生成NLP模型:训练成本低,只要1000个样本就能打败人类...相关推荐

  1. 国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由

    原文链接:全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由 去年4月,OpenAI发布的DALL-E 2用更高的分辨率.更真实的图像生成以及更准确地理解自然描述,横扫整个A ...

  2. AutoML大提速,谷歌开源自动化寻找最优ML模型新平台

    为了帮助研究者自动.高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台.该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小 ...

  3. AutoML大提速,谷歌开源自动化寻找最优ML模型新平台Model Search

    作者|魔王.杜伟 来源|机器之心 为了帮助研究者自动.高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台.该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合 ...

  4. 全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由...

    来源:新智元 去年4月,OpenAI发布的DALL-E 2用更高的分辨率.更真实的图像生成以及更准确地理解自然描述,横扫整个AIGC领域. 不过图像生成真正进入全民化还要数Stable Diffusi ...

  5. Facebook 开源增强版 LASER 库:可实现 93 种语言的零样本迁移...

    雷锋网 AI 科技评论按:去年 12 月份,Facebook 在论文中提出了一种可学习 93 种语言的联合多语言句子表示的架构,该架构仅使用一个编码器,就可以在不做任何修改的情况下实现跨语言迁移,为自 ...

  6. Facebook 开源增强版 LASER 库:可实现 93 种语言的零样本迁移

    雷锋网 AI 科技评论按:去年 12 月份,Facebook 在论文中提出了一种可学习 93 种语言的联合多语言句子表示的架构,该架构仅使用一个编码器,就可以在不做任何修改的情况下实现跨语言迁移,为自 ...

  7. AI圈真魔幻!谷歌最新研究表明卷积在NLP预训练上竟优于Transformer?LeCun暧昧表态...

    作者 | 陈大鑫.琰琰 转自:AI科技评论 AI 圈太是太魔幻了! 众所周知,近一年来Transformer火的很,把Transformer用在视觉领域真是屡试不爽,先是分类后是检测,等等等等,每次都 ...

  8. fpga实战训练精粹pdf_tensorflow版PSENet 文本检测模型训练和测试

    向AI转型的程序员都关注了这个号??? 机器学习AI算法工程   公众号:datayx psenet核心是为了解决基于分割的算法不能区分相邻文本的问题,以及对任意形状文本的检测问题. psenet依然 ...

  9. tensorflow版PSENet 文本检测模型训练和测试

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx psenet核心是为了解决基于分割的算法不能区分相邻文本的问题,以及对任意形状文本的检测问题. ...

  10. Pytorch手敲NLP 模型训练代码四大步骤总结

    https://blog.csdn.net/muyao987/article/details/106897093

最新文章

  1. python做一个系统-用python做一个系统监控程序
  2. LeetCode Validate Binary Search Tree(dfs)
  3. GDCM:获取SubSequence数据的测试程序
  4. QT中QTableWidget清空或删除内容功能
  5. Azure站点恢复之----VMM 站点到ASR
  6. Nonebot部署机器人常见问题
  7. Codeforces Round #484 (Div. 2) D. Shark
  8. 基于CNN的图像分类综述(包含小样本图像/零样本图像、细粒度图像分类)
  9. linux下使用top和pmap命令查看系统运行状态和进程运行状态
  10. Java main是什么_java中的public static void main是什么意思
  11. 单片机---HLK-W801蓝牙遥控点灯
  12. 2021年,自媒体人该怎么建立自媒体矩阵?
  13. MCAL中GTM的配置
  14. BUUCTF easy misc
  15. 计算网格中直线经过的格子
  16. 咸鱼软件应用—ubuntu切换中文
  17. CMU AI PhD 第一年总结
  18. unity3d:弹道飞行
  19. 帆软填报问题之填报显示提交成功,数据库却查不到数据
  20. 通俗的解释一下什么是 RPC 框架?

热门文章

  1. Oracle P6培训系列:09定义计划编制视图
  2. php源码怎样打包APP_APP在线打包封装生成源码
  3. 计算机10大经典算法
  4. 图像修复经典算法--Criminisi算法
  5. 下载各省、市、县的行政区划边界数据
  6. 安全扫描工具 Netsparker
  7. 2021华为软件精英挑战赛
  8. 台达plc控制伺服电机编程实例_分享3个台达PLC控制伺服项目接线及程序案例
  9. vue实现调用摄像头扫描二维码功能
  10. html开网站弹窗代码大全,网页弹窗代码大全