萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

最新消息,谷歌推出了NLP系列「芝麻街」的新成员Big Bird

这个在外界眼中看起来有点可爱的动漫小鸟,摇身一变,解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制,可以兼顾更长的上下文。

「芝麻街」中的Big Bird

众所周知,谷歌开发的BERT,曾经被称为「地表最强」NLP模型。

而BERT,则与美国知名动画片「芝麻街」(Sesame Street)里的虚拟人物同名。

此前,谷歌的「芝麻街」系列已经有5个成员(论文链接见传送门),现在Big Bird的到来,意味着谷歌在NLP的研究上更进一步。

少了一位ELMo

来看看Big Bird实现了什么。

突破全注意力机制的局限

在NLP模块表现最好的几种深度学习模型,例如BERT,都是基于Transformer作为特征抽取器的模型,但这种模型有它的局限性,核心之一就是全注意力机制

这种机制会带来序列长度二次依赖限制,主要表现在存储方面。

为了解决这个问题,团队提出了一种名为Big Bird的稀疏注意力机制。

作为更长序列上的Transformers,Big Bird采用稀疏注意力机制,将二次依赖降至线性。

下面这张图片,展示了Big Bird所用的注意力机制模块构建。

其中,白色的部分代表着注意力的空缺。

图(a)表示r=2的随机注意力机制,图(b)表示w=3的局部注意力机制,图(c)表示g=2的全局注意力机制,图(d)则是前三者融合起来的Big Bird模型。

之所以提出这样的模型,是因为团队希望能在将二次依赖降至线性的同时,Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标。

从下图来看,无论是单一采用随机注意力机制、局部注意力机制,还是二者结合的方式,都没有将三者进行结合的效果好。

也就是说,随机+局部+全局的注意力机制融合,最大程度上接近了BERT-base的各项指标。

不仅如此,这种稀疏注意力机制的一部分,还包括了采用O(1)的全局词例(global token),例如CLS。

这部分使得长程注意力开销从O(N√N)降至O(N)。

NLP问答和摘要任务中超越了SOTA

模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练,根据留出法评估,BigBird-ETC的损失达到了最低。

从结果来看,Big Bird在问答任务中展示出的精度非常不错。

下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果,可以看见,在各项数据及上,BigBird的两个模型都展现出了更高的精度。

而在对模型进行微调后,可以看见,BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。

与此同时,Big Bird在NLP的摘要任务中表现也比较亮眼。

摘要,顾名思义是从一段长文字中提炼出这段话的核心思想和意义。下面是从三个长文章数据集Arxiv、PubMed和BigPatent中测试的效果。

从图中来看,与其他非常先进的NLP模型相比,BigBird极大地提高了摘要任务的各项精度,性能表现非常优异。

不仅如此,Big Bird被证明是图灵完备的,这也就意味着,一切可以计算的问题,Big Bird都能计算,理论上,它能够用来解决任何算法。

此外,Big Bird在基因组数据处理方面也极具潜力。

但虽然如此,也有网友认为,这样的模型与Longformer在概念上并无本质区别,不能算是一个大突破。

你怎么看?

作者介绍

论文的两位共同一作是Manzil Zaheer和Guru Guruganesh,均来自谷歌。

Manzil Zaheer

Manzil Zaheer,CMU机器学习博士,3篇论文曾经发表于NIPs上,除此之外,在ACL和EMNLP等顶会上也发表过相应文章。

Guru Guruganesh

Guru Guruganesh,CMU机器学习博士,主要在近似算法、拉姆齐定理、半正定规划等方向有所研究。

传送门

「芝麻街」系列论文列表:
ELMo:https://arxiv.org/abs/1802.05365
BERT:https://arxiv.org/abs/1810.04805
ERNIE:https://arxiv.org/abs/1904.09223
Grover:https://arxiv.org/abs/1905.12616
KERMIT:https://arxiv.org/abs/1906.01604
Big Bird:https://arxiv.org/abs/2007.14062

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

每天5分钟,抓住行业发展机遇

如何关注、学习、用好人工智能?

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

加入AI社群,与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样相关推荐

  1. 谷歌全新轻量级新模型ALBERT刷新三大NLP基准

    谷歌全新轻量级新模型ALBERT刷新三大NLP基准 ICLR 2020提交论文数量达到2594篇,比去年增加了近1000篇.其中,来自谷歌的一篇论文引起格外瞩目,该论文提出ALBERT模型,比BERT ...

  2. 科创人·36氪副总裁王坤:企服产品应重视使用者体验,36氪将推出中国版「魔力象限」

    王坤 36氪副总裁.企服点评负责人 王坤拥有近10年的互联网产品设计.运营经验和团队管理经验.加入36氪前,曾先后就职于360.百度.网易等多家顶尖互联网公司,全面操盘过网易新闻.网易公开课.百度视频 ...

  3. 16岁日本神童打造日版「健康码」,追踪用户行动数据抗击疫情

      新智元报道   来源:techxplore 编辑:梦佳 [新智元导读]16岁日本计算机天才少年加藤(Kato)近日开发了一个使用GPS的行迹记录软件Asiato,可记录用户行踪,同时将数据储存在手 ...

  4. 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Tran ...

  5. 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Transformer跨界计算机视觉虽然已取得了一些不错的成绩,但大部分情况下,它还是落后于最先进的卷积网络. 现在,谷歌提出了一个叫做Co ...

  6. 谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%,大神Quoc Le出品

    十三 发自 凹非寺  量子位 报道 | 公众号 QbitAI 你的数据还不够强. 玩深度学习的人都知道,AI算法大部分是数据驱动.数据的质量一定程度上决定了模型的好坏. 这就有了深度学习天生的一个短板 ...

  7. 谷歌官方正式发布了Go1.20稳定版「8千字详解」

    Go1.20 变化不少,该版本依然保持 Go1 兼容性,我们可以升级到 Go1.20,而不需要做任何代码改动. 可以使用你任何喜欢的方式升级: 比如:go install golang.org/dl/ ...

  8. 皮猜按下谷歌招聘暂停键,疫情之下,「紧日子」来了

    白交 发自 凹非寺  量子位 报道 | 公众号 QbitAI 疫情之下,连谷歌也要过"紧日子"了. 今天,谷歌母公司Alphabet的CEO皮猜,通过公司备忘录向全体员工发出信号: ...

  9. 智能座舱开启「万物交互」新革命,隐形冠军们如何突围?

    伴随智能座舱在市场端逐步深入消费者心智,从显示.语音到视觉交互,各细分赛道都在蓬勃发展. 高工智能汽车研究院监测数据显示,2022年1-10月,智能座舱前装搭载量同比增长58.06%%,高阶智能座舱同 ...

最新文章

  1. react组件回顶部
  2. FW 每秒百万级别的 HTTP 请求 sung: 重型的(heavy-duty)、分布式的、多协议测试工具...
  3. mac redis 链接_在Ubunt/Mac系统安装Redis以及设置Redis密码并且允许远程连接 - Laravel学习网...
  4. Bicoloring
  5. Html5 postMessage
  6. java1.7开发环境_在Windows平台搭建Java 1.7开发环境
  7. [leedcode 215] Kth Largest Element in an Array
  8. java提示没有main,有main方法却还是提示没有
  9. Leetcode 129. 根到叶子结点数字之和
  10. 9个笑话 顿悟9个人生道理
  11. 常用排序算法总结(一)
  12. JavaEE笔记:第十九次课之AJAX
  13. 代码审计“小迪安全课堂笔记” java
  14. day 83 Vue学习三之vue组件
  15. [附源码]Python计算机毕业设计调查问卷及调查数据统计系统
  16. visio绘图小技巧
  17. linux系统编程1--文件编程open和close
  18. bios和boot menu的关系?
  19. dell服务器系统密钥和coa,买戴尔1545的问一下,你们有没有coa标签
  20. java设计程序实验报告,实验报告一

热门文章

  1. 分享一篇关于使用阿里云消息队列中遇到的坑
  2. OSChina 周三乱弹 —— 孤独到都和病毒发生了感情了
  3. Oracle undo表空间
  4. CentOS 6.5的安装详解
  5. 亚马逊瞄准大数据 欲在汽车行业抢占一席之地
  6. 远程访问mysql设置
  7. tunctl used bridge sub interface network used with multi-network env
  8. Redis Server Memory Optimization
  9. Spring4 MVC Hibernate4集成
  10. 安装ESXi5.5遇到Relocating modules and starting up the kernel的处理