“芝麻街”喜添新成员——Big bird

0. 背景

题目:
Big Bird: Transformers for Longer Sequences
机构:Google Research
作者:Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed
论文地址:https://arxiv.org/abs/2007.14062

Big Bird 按照道理讲是中了NeurIPS 2020,但是看了下官网的论文接收列表,名字是:“Big Bird: Bert for Longer Sequences”
https://neurips.cc/Conferences/2020/AcceptedPapersInitial

摘要

当下号称地表最强的NLP模型都基于Transformer,但Transformer的全注意力机制带来的序列长度二次依赖问题导致这些模型处理长文本时候显得黔驴技穷(主要是内存消耗太多了)。为解决序列长度二次依赖限制这个问题,且保持原有网络的表现力和灵活性,Google Research提出Big Bird,其核心是使用稀疏注意力机制将二次依赖降至线性。文中证明Big Bird是一个通用的序列函数近似器且是图灵完备的,从而能够保持二次全注意力模型的性质。另外,图灵完备也就意味着,一切可以计算的问题,Big Bird都能计算,理论上,它能够用来解决任何算法。
在相同的硬件配置下,Big Bird所能够处理的序列长度是BERT的8倍。由于能够处理较长的上下文,Big Bird在多个NLP任务数据集如问答和文本摘要上取得了SOTA的结果。比如Big Bird 在 TriviaQA上的最新排名:

看看Big Bird的屠榜效果:

Big Bird 架构

由于BERT使用的是完全的自注意力机制,即每个token都需要attend到其他每个token,所以内存消耗就是序列长度的二次方。Big Bird模型中引入了通用化的注意力(即稀疏注意力机制)将二次依赖降至线性。Big Bird中的注意力机制主要有3个方面:
(1)Random attention,即随机注意力。每个query token随机attend到 r 个 token,比如 当 r=2,则会得到稀疏的attention。
(2)Sliding window attention,即局部注意力。一个token会attend到窗口大小为w(w=3)的token,这与Longformer使用局部滑动窗口mask降低计算量从而使BERT能够处理更长的序列很类似。
(3)Global attention,即全局注意力。使用Global tokens进行全局的attend。Global tokens会attend到全部的token,同时全部的token也会attend到这些Global tokens。这些Global tokens的定义有两种方式:ITC(internal transformer construction)和ETC(extended transformer construction)。ITC选用现有的一些token作为“global” token,而ETC则是通过添加一些token(比如 CLS) 作为
“global” token。

Figure 1中的白色区域表示没有attention。(a)r=2的random attention,(b)w=3的sliding window attention, ©g=2的 global attention, (d)Big Bird中联合使用的注意力
从下图Table 1 可以看出无论是单一采用随机注意力机制、局部注意力机制,还是二者结合的方式,都没有三者联合的效果好。换句话说,随机+局部+全局的注意力机制融合,能够最大程度上接近BERT-base的各项指标。

PS:整体来说,Big Bird和 Longformer 或者 ETC模型还是很类似的。

实验结果

使用文中的稀疏注意力机制能够处理的文本长度是BERT的8倍。以下是在各个NLP数据集上的实验结果。

Pretraining & MLM

使用MLM目标进行预训练,从Table 3的结果可以看出,Big Bird和 Longformer表现均优于RoBERTa。

问答任务:

各模型在问答任务的dev数据集上的表现如 Table 4所示。可以看出,在各个任务数据集的各项指标上,BigBird的两个模型都优于与RoBERTa和Longformer。

在对模型进行微调后,在Test数据集上的对比结果如 Table 5所示。BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。需要指出的是这里的Big Bird是单模型,而Natural Questions任务排行榜top 3模型是多个模型集成的结果。

一句话,BigBird-ETC在问答任务上技压群雄。

文本分类任务

长文档分类实验效果如 Table 6所示。可以看出训练样本量较少时,Big Bird效果提升更显著。比如对于Arxiv数据集Big Bird能够高出此前最优结果5%。

文本摘要任务

Big Bird在文本摘要任务中的实验结果如 Table 8所示。

看到了吗, 天马模型(Pegasus)加持BigBird之后简直逆天,再次刷爆了新记录,地表最强,没有之一。

最后,文中还秀了一波Big Bird在基因组数据处理方面的效用,极具潜力。

总结:

BigBird模型中使用稀疏注意机制,使得二次依赖问题降为线性。此外BigBird满足了一些理论结果:(1)是序列函数的普遍逼近器(2)也是图灵完备的。BigBird在一些NLP任务上比如问答和文本摘要上刷新了记录。进一步介绍将基于注意力的上下文语言模型应用到NDA中的效果,在对模型微调,可以实现诸如启动子区域预测和非编码变异的预测等下游任务。

“芝麻街”喜添新成员——Big bird相关推荐

  1. 碳材料家族喜添新成员,石墨到金刚石相变机制被阐明

    由于碳能够通过杂化轨道形成各种键,所以碳有许多同素异形体.在所有的同素异形体中,石墨和金刚石是最普遍的(分别具有sp2和sp3杂化),并且已经被人类广泛利用了几千年. 石墨和金刚石是两种完全不同的材料 ...

  2. 谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最新消息,谷歌推出了NLP系列「芝麻街」的新成员Big Bird. 这个在外界眼中看起来有点可爱的动漫小鸟,摇身一变,解决了BERT模型中的 ...

  3. 阿里云ECS家族再添新成员,推出密集计算型实例规格族ic5

    去年,阿里云正式发布云服务器ECS企业级产品家族,推出面向173种企业应用场景的19款实例.适合在复杂的企业计算环境下,满足对于高性能.高可靠的计算需求. 时隔近一年,回看ECS企业级产品家族已经发展 ...

  4. Adaptec HBA和RAID 的兼容性报告中又添新成员—— HGST Helium HDD

     Adaptec HBA和RAID 的兼容性报告中又添新成员 -- HGST Helium HDD Jeremiah Tussey

  5. CW32超低功耗家族再添新成员:32位M0+内核MCU CW32L052系列产品

    2023年2月,武汉芯源半导体超低功耗家族再添新成员--32位M0+内核MCU CW32L052系列芯片. CW32L052 是基于 eFlash 的单芯片低功耗微控制器,集成了主频高达 48MHz ...

  6. “互联网汽车”又添新成员,上汽斯柯达接入斑马智行互联系统

    "互联网汽车"品类下又有了新成员,上汽荣威.上汽名爵.东风雪铁龙等品牌之后,上汽大众斯柯达(Skoda)也加入进来. 3 月 12 日这天,斑马网络在上海宣布其智行互联系统未来将植 ...

  7. 湖南阿波罗智行L4级低速自动驾驶小车亮相 湖南自动驾驶“朋友圈”再添新成员

    10月16日,长沙国际会展中心,湖南阿波罗智行科技有限公司举行BOBO·GO低速自动驾驶产品推介会,由湖南湘江新区本土企业自主设计研发的首款L4级低速自动驾驶售卖小车BOBO·GO(波波购)正式亮相. ...

  8. SPECTRUM数字化仪M2p系列再添新成员--5Ms/s采样率

    近日,spectrum发布了M2p系列新成员,采样率为5MS/s的数字化仪,依然是支持1.2.4或8通道采集模式,采样精度为16bit.同时,与之对应的NETBOX系列也同时发布,支持4.8.16.2 ...

  9. GAN“家族”又添新成员——EditGAN,不但能自己修图,还修得比你我都好

    导语:从风格迁移到特征解耦.语言概念解耦,研究人员正通过数学和语言逐步改善GAN的功能. 作者 | 莓酊 编辑 | 青暮 首先想让大家猜一猜,这四张图中你觉得哪张是P过的?小编先留个悬念不公布答案,请 ...

最新文章

  1. 【怎样写代码】实现对象的复用 -- 享元模式(二):解决方案
  2. shell脚本自动化部署服务
  3. 记一次mongoDB-@Document(collection = “XXX“)配置的探索
  4. PHP的global与GLOBAL
  5. AGAGA XOOORRR CodeForces - 1516B
  6. C++ (tensorRT中学习)
  7. 基于FPGA的RGB图像转 Ycbcr图像实现 gray图像
  8. UVA11310 Delivery Debacle【铺砖问题】
  9. Java中的==符号与equals()的使用(测试两个变量是否相等)
  10. 专业美妆磨皮大师扩展插件支持PS2021版效果
  11. 我的飞信发展方案(一)
  12. Python实现快速大文件比较代码解析
  13. CF1267G Game Relics(期望、背包)
  14. bootstrap btn 按钮颜色
  15. 压力测试/性能测试工具LoadRunner录制脚本详细步骤(一)
  16. 魔百盒cm211-1_ZG-晶晨S905和CH-晶晨S905L3B线刷-刷机固件及教程
  17. C语言中关键字void的用法
  18. RTSP、RTP、RTCP协议简介
  19. Image-to-Image Translation with Text Guidance
  20. VS常见错误之一:LNK1168无法打开进行写入

热门文章

  1. 解决Elasticsearch查询默认最大值返回10000
  2. 一个五线城市的移动互联网写真
  3. 网络系统集成实验(三)| 系统集成虚拟局域网(VLAN)配置
  4. 基于web的智能考勤系统设计与实现
  5. Web开发种色系搭配方案和常用颜色码
  6. 数据分析的别称也叫定性数据分析
  7. Java解决下载中文乱码和URL中文乱码问题
  8. java线程池大小_线程池大小设置多少合适?java如何合理设置线程池大小?
  9. 品牌网络公关怎么做?如何能预防与优化舆情?
  10. C语言字符串查找基础----strchr()、strrchr()、strpbrk()、strstr()