飞马(PEGASUS):Google最新的摘要汇总模型
Google AI如何生成人为水平的摘要
> Photo by Sudan Ouyang on Unsplash
摘要能力可以评估一个人对给定的一段文字或某种语言的理解。
也许一个人智力的最好考验是他做总结的能力
— Lytton Strachey
因此,总结是NLP中一个相当重要的概念。 在本文中,我已经介绍了整个摘要和抽象摘要以及使用Transformers的实现。 如果您有兴趣了解此任务的简要背景,请考虑阅读该文档。 PEGASUS模型是在Transformer体系结构上训练的。
在本文中,我们将讨论由Google AI提出的最新论文" PEGASUS:使用提取的间隙句进行抽象概括的预训练",该论文应该出现在ICML 2021中。
飞马(PEGASUS):预先训练以提取的句子作为抽象摘要
像任何其他序列转导任务一样,PEGASUS也实现了seq2seq体系结构。 然而,这种架构的新颖之处在于其自我监督的预训练目标。
自主学习是深度学习的新领域。 从本质上讲,它消除了数据对标记样本的依赖性,并使大量未经探究,未标记的数据可用于培训。
事实证明,将基于Transformer的模型与自我监督的预训练(例如BERT,GPT-2,RoBERTa,XLNet,ALBERT,T5,ELECTRA)相结合是非常有效的。
差距句生成(GSG):自我监督的总结目标
> Self-Supervised Pre-training in PEGASUS by Google AI Blog
该目标背后的主要思想是这样一个假设,即预训练自我监督目标越接近最终的下游任务,微调性能越好
因此,在PEGASUS中,从文档中删除了完整的句子(即"蒙版"了),并且训练了模型来预测这些句子,如图所示。 作者承认,即使实际上对于人类来说,这项任务似乎几乎是不可能的。 但是,这种培训对于生成带有原始文档实例的句子产生了更高的理解力。 从而支持他们的假设。 此任务被称为"间隔句生成(GSG)"。
此外,作者断言从文档中选择最重要的句子进行掩盖效果最佳。 这是通过根据称为ROUGE(通常用于评估摘要任务中摘要质量)的度量来查找与整个文档最相似的句子来完成的。
屏蔽语言模型(MLM)
尽管PEGASUS的主要贡献是GSG(在上一节中已讨论过),但它的基本体系结构由编码器和解码器组成。 因此,将编码器作为一种掩蔽的语言模型进行预训练是有意义的。
> Language Modeling v/s Masked Language Modeling by Google AI Blog
在此任务中,我们从序列中随机屏蔽单词,并使用序列中的其他单词来预测这些屏蔽的单词。 GSG任务可以解释为文档级MLM,并且是从这个概念派生而来的。
因此,正如BERT论文中所建议的,来自序列陪玩的15%单词被随机屏蔽,并且训练模型来预测这些屏蔽的单词。
联合训练
前面几节中讨论的两种方法都已合并,并且以组合方式培训了Transformer。
> MLM (left) + GSG (right) training together in PEGASUS from the paper
GSG和MLM都同时应用于此示例作为预训练目标。 本来有三句话。 一句话用[MASK1]掩盖,并用作目标生成文本(GSG)。 其他两个句子保留在输入中,但某些单词被[MASK2](MLM)随机掩盖。
—飞马论文
结果
该模型在12个公共抽象摘要数据集上进行了微调。 通过对很少数量的样本进行训练,它在其中的6个数据集上已经超越了现有技术水平。
微调
> Various Variants of the ROUGE Metric on Selected 4 Datasets (Dotted Lines are Results from Fully S
可以清楚地看到,PEGASUS仅用最少的1000个训练样本就已经超过了这些数据集,并达到了最新水平。
人类质量摘要
> Human Rating Tests by Google AI Blog
PEGASUS还通过3个数据集实现了人为水平的结果。 评估是通过对人员摘要和模型生成的摘要进行评级来完成的,而不知道哪一个是哪一个。
"我们用3个不同的数据集进行了实验,发现人类评估者并不总是喜欢人类摘要而不是我们模型中的人类摘要"
数船
这是PEGASUS实现的另一个有趣的结果:
Xsum数据集的一篇文章建议了4艘船的名称。 HMS坎伯兰,HMS坎贝尔敦,HMS查塔姆和HMS康沃尔。 该模型正确地将其抽象为"四艘皇家海军护卫舰",尽管这里没有提及样品中的"四艘"数字。
考虑到这是a幸,作者已通过在列表中添加或删除名称进行了测试。 如果有2–5个名称,该模型将正确抽象该数字。 但是,它把6艘船误认为是"七艘",这表明它只能提取列表中的少量名称。
演示可以在这里找到。
有趣的事实:与T5等同类模型相比,该模型取得了更好的结果,同时仅使用了T5参数数量的5%。
结论
我们已经讨论了Google最先进的抽象摘要模型的工作方式。 我们还看到了与下游任务相对相似的任务的预训练如何在微调中极大地提高模型性能。 这为自监督的预训练目标建模提供了一种可能性,比起一般而言,它更具体。
代码和检查点是开源的,可以在这里找到。
飞马(PEGASUS):Google最新的摘要汇总模型相关推荐
- Google最新论文:大规模深度推荐模型的特征嵌入问题有解了!
转载自深度传送门(ID: gh_5faae7b50fc5) 导读:本文主要介绍下Google在大规模深度推荐模型上关于特征嵌入的最新论文. 一.背景 大部分的深度学习模型主要包含如下的两大模块:输入模 ...
- 2019年最新VSLAM比较汇总
2019年最新VSLAM比较汇总 闭源 SOFT SOFT2 ESO sGAN-VO LG-SLAM RotRocc+ GDVO Elbrus ROCC MonoROCC cv4xv1-sc 开源: ...
- TensorFlow 自动文本摘要生成模型,2016
TensorFlow 自动文本摘要生成模型 textsum: Text summarization with TensorFlow | Google Research Blog (文/ 谷歌大脑软件工 ...
- 云游 Google I/O 2021——Google Cloud 硬件算力和模型新突破
作者:王顺 Google Cloud AI 专家 美国时间 2021 年 5 月 18-20 日,Google I/O 2021 成功举办.在这次活动中,Google 带来了各种开发者关注的干货内容和 ...
- 今晚直播 | 谷歌资深工程师手把手教你使用TensorFlow最新API构建学习模型
目前,深度学习的研究和应用大受追捧,各种开源的深度学习框架层出不穷.TensorFlow 作为目前最受欢迎的深度学习框架,已经在 GitHub 上获得了 112194 个 star,受欢迎程序可见一斑 ...
- 《预训练周刊》第27期:谷歌发布最新看图说话模型、GitHub:平台上30%的新代码受益于AI助手Copilot...
No.27 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了9篇预训练相关的论文,涉及少样本理解.图像检测.决策图.大模型微调.对话微调.分子建模.蛋白质结构预测 ...
- 微信小程序最新开发资源汇总,对学习微信小程序的新手有一定帮助
微信小程序最新开发资源汇总,希望给想学习或正在学习微信小程序开发的同学们带来一定帮助,汇总的小程序资源有点繁杂,各种类型的小程序demo都有,大家可以选择自己想要的demo进行下载学习.这些微信小程序 ...
- phpcmsV9 首页调用全站最新文章(受模型限制)
phpcmsV9 首页调用全站最新文章数据的办法 在很多使用phpcmsV9框架的项目中,都会经常遇到首页调用全站最新文章的情况.这里讲解一篇.仅供参考. 首页调用 · 全站最新文章 查找文件:www ...
- 我叫mt4最新服务器,我叫mt4新区开服表 最新新区开服时间汇总分享[多图]
我叫mt4是最近一款比较火热的手游,受欢迎程度也很高,什么时候能开新区呢?或许有的玩家朋友很好奇吧,下面是友情MT为大家带来的我叫mt4新区开服表,最新新区开服时间汇总分享,希望能帮助到大家! 自7月 ...
- 2018 Google IO干货摘要及对国内Android开发者的影响
本文由 玉刚说写作平台 提供写作赞助,赞助金额:300元 原作者:却把清梅嗅 原文地址:https://mp.weixin.qq.com/s/h0HUyrpbDtbEeiY2Z3-POQ 版权声明:本 ...
最新文章
- 偶然发现的QQ的一个挺讨厌的BUG
- 零基础Java学习之接口
- dpkg安装deb缺少依赖包的解决方法
- 亚马逊部分 AWS DNS 系统遭 DDoS 攻击,已达数小时之久
- echarts用法配置
- CodeForces - 1534E Lost Array(bfs+交互)
- .NET Core 3.0之深入源码理解Startup的注册及运行
- python实战讲解_Python数据可视化实战讲解
- lucene Term查询
- (计算机组成原理)第一章计算机系统概述-第四节:计算机的性能指标
- WM6.5中隐藏和显示任务栏、命令栏及输入面板
- java多线程编程(三)- 线程的创建
- LCD液晶拼接屏优势凸显受市场欢迎
- 中国第一代技术网红,阿里云P10技术专家褚霸:我只是一个程序员 。
- 记一次windows 10 无法升级问题的处理(系统盘MBR转GPT)
- 深度学习的常见模型CNN
- 最新利用腾讯快捷登录协议截取QQ ClientKey实战课程【详细教学-源码共享】
- 指定位置插入字符串(c++insert函数、find函数使用)
- 《Python面向对象编程》读后感
- 微型计算机原理第三版考试,微机原理考试试题及答案分析
热门文章
- 基于JavaWeb聊天室设计与实现
- python打印的时候print(f“*******“) 的括号里的 f‘ ‘ 是什么意思 ?
- Pycharm下载与安装教程
- What Android Is
- mysql 字段 decimals_[转]分析MySQL数据类型的长度【mysql数据字段 中length和decimals的作用!熟悉mysql必看】...
- c++中调用c编写的动态链接库出现undefined reference to `xxx‘的解决方法
- SecureCRT 关键字配色显示
- writeUP-[第五空间2019 决赛]PWN5(待进一步完善待研究内容)
- python包NetworkX学习——最短路径dijkstra_path和dijkstra_path_length
- 勒索病毒的种类和传播方式