谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
最新消息,谷歌推出了NLP系列「芝麻街」的新成员Big Bird。
这个在外界眼中看起来有点可爱的动漫小鸟,摇身一变,解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制,可以兼顾更长的上下文。
△ 「芝麻街」中的Big Bird
众所周知,谷歌开发的BERT,曾经被称为「地表最强」NLP模型。
而BERT,则与美国知名动画片「芝麻街」(Sesame Street)里的虚拟人物同名。
此前,谷歌的「芝麻街」系列已经有5个成员(论文链接见传送门),现在Big Bird的到来,意味着谷歌在NLP的研究上更进一步。
△ 少了一位ELMo
来看看Big Bird实现了什么。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型,例如BERT,都是基于Transformer作为特征抽取器的模型,但这种模型有它的局限性,核心之一就是全注意力机制。
这种机制会带来序列长度二次依赖限制,主要表现在存储方面。
为了解决这个问题,团队提出了一种名为Big Bird的稀疏注意力机制。
作为更长序列上的Transformers,Big Bird采用稀疏注意力机制,将二次依赖降至线性。
下面这张图片,展示了Big Bird所用的注意力机制模块构建。
其中,白色的部分代表着注意力的空缺。
图(a)表示r=2的随机注意力机制,图(b)表示w=3的局部注意力机制,图(c)表示g=2的全局注意力机制,图(d)则是前三者融合起来的Big Bird模型。
之所以提出这样的模型,是因为团队希望能在将二次依赖降至线性的同时,Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标。
从下图来看,无论是单一采用随机注意力机制、局部注意力机制,还是二者结合的方式,都没有将三者进行结合的效果好。
也就是说,随机+局部+全局的注意力机制融合,最大程度上接近了BERT-base的各项指标。
不仅如此,这种稀疏注意力机制的一部分,还包括了采用O(1)的全局词例(global token),例如CLS。
这部分使得长程注意力开销从O(N√N)降至O(N)。
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练,根据留出法评估,BigBird-ETC的损失达到了最低。
从结果来看,Big Bird在问答任务中展示出的精度非常不错。
下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果,可以看见,在各项数据及上,BigBird的两个模型都展现出了更高的精度。
而在对模型进行微调后,可以看见,BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。
与此同时,Big Bird在NLP的摘要任务中表现也比较亮眼。
摘要,顾名思义是从一段长文字中提炼出这段话的核心思想和意义。下面是从三个长文章数据集Arxiv、PubMed和BigPatent中测试的效果。
从图中来看,与其他非常先进的NLP模型相比,BigBird极大地提高了摘要任务的各项精度,性能表现非常优异。
不仅如此,Big Bird被证明是图灵完备的,这也就意味着,一切可以计算的问题,Big Bird都能计算,理论上,它能够用来解决任何算法。
此外,Big Bird在基因组数据处理方面也极具潜力。
但虽然如此,也有网友认为,这样的模型与Longformer在概念上并无本质区别,不能算是一个大突破。
你怎么看?
作者介绍
论文的两位共同一作是Manzil Zaheer和Guru Guruganesh,均来自谷歌。
△ Manzil Zaheer
Manzil Zaheer,CMU机器学习博士,3篇论文曾经发表于NIPs上,除此之外,在ACL和EMNLP等顶会上也发表过相应文章。
△ Guru Guruganesh
Guru Guruganesh,CMU机器学习博士,主要在近似算法、拉姆齐定理、半正定规划等方向有所研究。
传送门
「芝麻街」系列论文列表:
ELMo:https://arxiv.org/abs/1802.05365
BERT:https://arxiv.org/abs/1810.04805
ERNIE:https://arxiv.org/abs/1904.09223
Grover:https://arxiv.org/abs/1905.12616
KERMIT:https://arxiv.org/abs/1906.01604
Big Bird:https://arxiv.org/abs/2007.14062
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
每天5分钟,抓住行业发展机遇
如何关注、学习、用好人工智能?
每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。
同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:
加入AI社群,与优秀的人交流
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样相关推荐
- 谷歌全新轻量级新模型ALBERT刷新三大NLP基准
谷歌全新轻量级新模型ALBERT刷新三大NLP基准 ICLR 2020提交论文数量达到2594篇,比去年增加了近1000篇.其中,来自谷歌的一篇论文引起格外瞩目,该论文提出ALBERT模型,比BERT ...
- 科创人·36氪副总裁王坤:企服产品应重视使用者体验,36氪将推出中国版「魔力象限」
王坤 36氪副总裁.企服点评负责人 王坤拥有近10年的互联网产品设计.运营经验和团队管理经验.加入36氪前,曾先后就职于360.百度.网易等多家顶尖互联网公司,全面操盘过网易新闻.网易公开课.百度视频 ...
- 16岁日本神童打造日版「健康码」,追踪用户行动数据抗击疫情
新智元报道 来源:techxplore 编辑:梦佳 [新智元导读]16岁日本计算机天才少年加藤(Kato)近日开发了一个使用GPS的行迹记录软件Asiato,可记录用户行踪,同时将数据储存在手 ...
- 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体!
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Tran ...
- 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体
丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Transformer跨界计算机视觉虽然已取得了一些不错的成绩,但大部分情况下,它还是落后于最先进的卷积网络. 现在,谷歌提出了一个叫做Co ...
- 谷歌大脑开源「数据增强」新招数:ImageNet准确率达85%,大神Quoc Le出品
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你的数据还不够强. 玩深度学习的人都知道,AI算法大部分是数据驱动.数据的质量一定程度上决定了模型的好坏. 这就有了深度学习天生的一个短板 ...
- 谷歌官方正式发布了Go1.20稳定版「8千字详解」
Go1.20 变化不少,该版本依然保持 Go1 兼容性,我们可以升级到 Go1.20,而不需要做任何代码改动. 可以使用你任何喜欢的方式升级: 比如:go install golang.org/dl/ ...
- 皮猜按下谷歌招聘暂停键,疫情之下,「紧日子」来了
白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI 疫情之下,连谷歌也要过"紧日子"了. 今天,谷歌母公司Alphabet的CEO皮猜,通过公司备忘录向全体员工发出信号: ...
- 智能座舱开启「万物交互」新革命,隐形冠军们如何突围?
伴随智能座舱在市场端逐步深入消费者心智,从显示.语音到视觉交互,各细分赛道都在蓬勃发展. 高工智能汽车研究院监测数据显示,2022年1-10月,智能座舱前装搭载量同比增长58.06%%,高阶智能座舱同 ...
最新文章
- react组件回顶部
- FW 每秒百万级别的 HTTP 请求 sung: 重型的(heavy-duty)、分布式的、多协议测试工具...
- mac redis 链接_在Ubunt/Mac系统安装Redis以及设置Redis密码并且允许远程连接 - Laravel学习网...
- Bicoloring
- Html5 postMessage
- java1.7开发环境_在Windows平台搭建Java 1.7开发环境
- [leedcode 215] Kth Largest Element in an Array
- java提示没有main,有main方法却还是提示没有
- Leetcode 129. 根到叶子结点数字之和
- 9个笑话 顿悟9个人生道理
- 常用排序算法总结(一)
- JavaEE笔记:第十九次课之AJAX
- 代码审计“小迪安全课堂笔记” java
- day 83 Vue学习三之vue组件
- [附源码]Python计算机毕业设计调查问卷及调查数据统计系统
- visio绘图小技巧
- linux系统编程1--文件编程open和close
- bios和boot menu的关系?
- dell服务器系统密钥和coa,买戴尔1545的问一下,你们有没有coa标签
- java设计程序实验报告,实验报告一
热门文章
- 分享一篇关于使用阿里云消息队列中遇到的坑
- OSChina 周三乱弹 —— 孤独到都和病毒发生了感情了
- Oracle undo表空间
- CentOS 6.5的安装详解
- 亚马逊瞄准大数据 欲在汽车行业抢占一席之地
- 远程访问mysql设置
- tunctl used bridge sub interface network used with multi-network env
- Redis Server Memory Optimization
- Spring4 MVC Hibernate4集成
- 安装ESXi5.5遇到Relocating modules and starting up the kernel的处理