点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

机器学习领域权威“跑分”MLPerf v1.1训练榜单已出炉。

这次,在BERT模型的成绩表上有一个“异常”的数字:1196.638(分钟),来自谷歌。

怎么?谷歌训练一个BERT要接近1天,别家都只要几分钟?

NONONO!

这其实是谷歌从未透露的巨型版本BERT,参数规模有4810亿,不是别人只有几亿参数那种的BERT。

它也是谷歌今年在MLPerf“非标准区”提交的一个作品:

一共花了2048块TPUv4,约20小时训练而成!

 TPUv4芯片机架,谷歌数据中心

有史以来最大版本的BERT

标准BERT模型(BERT Large)参数规模只有3.4亿,而此次4810亿的巨型BERT是有史以来最大的一个版本。

这俩之间直接差了好几个数量级

而谷歌表示,训练大型模型正是公司的“重中之重”(主要用于云服务)。

所以此次他们根本没有参加任何标准分区里的跑分评比,只在非标准区“释放了自我”。

MLPerf竞赛有俩分区:

Closed区也就是标准区,参赛商在ResNet-50等规定模型上跑分;

Open区也就是非标准区,参赛商可以尝试任何规定以外的模型和方法来达到目标性能。

在大多数参赛商都“挤”在标准区训练小规模的模型时,谷歌员工“凡尔赛”道

“在短短几秒内‘豪掷’4000块芯片来训练巨型BERT才是真的酷(爽)。”

谷歌由此也希望MLPerf基准测试能引进更多的大模型,因为他们觉得现实中才不会像非标准区的参赛作品那样用那么多芯片来训练那么小的模型。

而此次的巨型BERT性能也不赖,它的预测准确率为75%,比MLPerf要求的72.2%要高

同时,和标准区其他参赛商一样,谷歌也用较少的文本数据样本来达到目标精度。

具体来说,标准区要求一个程序使用近5亿个token序列进行训练,每个序列的长度大多为128个token。

而Google只使用了大约2000万个序列,不过每个序列的长度为512token。

另外,完成这次工作的2048块TPU系统一开始也是为了迎合公司的生产和研发需要,所以它并未“束之高阁”——目前已用于Google Cloud服务

英伟达在标准区“战绩显赫”

其余MLPerf结果,主要在“标准区”,一如既往,英伟达战绩最高。

比如它使用最新一代GPU A100的系统在训练ResNet-50花费的时间上包揽前四,其中最快只需21秒——比今年6月24秒的最高成绩还快。

当然,此战绩一共花了4320个A100,在1080个AMD的EPYC x86处理器的帮助下并行完成。

但在不拼芯片和主机处理器的情况下,竞争对手可就碾压起英伟达了。

其中英特尔Habana用256个Gaudi加速芯片,只需3.4分钟就训练好ResNet-50。

Graphcore则只需3.8分钟,用了256块IPU加速器芯片和32块AMD EPYC主机处理器。

英伟达在配备16个EPYC处理器的64路A100系统下,花了4.5分钟

打败了英伟达的Graphcore,则强调自己最看重性能和成本之间的平衡。

就比如Graphcore在16路系统上训练ResNet-50耗费28分钟,比英伟达DGX A100系统快一分钟,但他们用到的POD-16是DGXA100成本的一半

此次参赛的其他厂商中,三星在电子训练普通版BERT的速度上获得了第二名,仅为25秒。花了256个AMD芯片和1024个英伟达A100。

微软的Azure云服务首次参赛,它使用192个AMD EPYC处理器和768个A100在医疗数据上训练图像分割模型获得了最高分。

同时Azure也表示后续也会像谷歌那样在非标准区提交一些成绩,虽然微软和英伟达在此前不久发布了目前最大的模型“威震天-图灵”,但他们表示:

许多公司希望将人工智能用于专一目的,而非需要4000块芯片才能运行的巨型语言模型。

更多评分结果大家可以参考官网数据。

榜单地址:
https://mlcommons.org/en/news/mlperf-training-v11/

参考链接:
https://www.zdnet.com/article/google-uses-mlperf-competition-to-showcase-performance-on-gigantic-version-of-bert-language-model/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

炼个BERT别人花几分钟你花了快1天?谷歌:我这是4810亿参数的巨型BERT相关推荐

  1. 只花5-10分钟评审,还不提供拒稿理由,IJCAI就“枪毙”42%论文,网友:一脸懵逼...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今年的IJCAI,真可谓是 ...

  2. 花5分钟过一遍jar包和war包的区别,以后都不会再迷茫

    做Java开发,jar包和war包接触的都比较多. 今天,小编把两者的联系好好梳理下,花5分钟过一遍以后不再迷茫,你值得拥有: 一.概念 1. jar包:jar包是类的归档文件,与平台无关的文件格式, ...

  3. 花10分钟看一看少走30年弯路

    花10分钟看一看少走30年弯路 HP大中华区总裁孙振耀退休感言 : 如果这篇文章没有分享给你,那是我的错. 如果这篇文章分享给你了,你却没有读,继续走弯路的你不要怪我. 如果你看了这篇文章,只读了一半 ...

  4. 自行车车把会吧车刮坏吗_花10分钟即可开始使用车把

    自行车车把会吧车刮坏吗 by Wing Puah 永帕(Wing Puah) 花10分钟即可开始使用车把 (Take 10 minutes to get started with Handlebars ...

  5. 47分钟,BERT训练又破全新纪录!英伟达512个GPU训练83亿参数GPT-2 8B

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 具有92个DGX-2H节点的NVIDIA DGX SuperPOD通过在短短47分 ...

  6. 计算机考试不用输入扩展名吗,本周末的 计算机等级考试,如果不想考0分,一定要花2分钟看完...

    原标题:本周末的 计算机等级考试,如果不想考0分,一定要花2分钟看完 嗨喽~下午好!我是超甜的小虎 泰戈尔的爱情诗<世上最远的距离>里有一段"世上最远的距离不是生与死的距离,而是 ...

  7. 信息抽取(二)花了一个星期走了无数条弯路终于用TF复现了苏神的《Bert三元关系抽取模型》,我到底悟到了什么?

    信息抽取(二)花了一个星期走了无数条弯路终于用TF复现了苏神的<Bert三元关系抽取>模型,我到底悟到了什么? 前言 数据格式与任务目标 模型整体思路 复现代码 数据处理 数据读取 训练数 ...

  8. 我花 1 分钟写了一段爬虫,帮助小姐姐解放了双手

    1. 场景 最近有一位小姐姐向我抱怨,说她家宝宝最近要打预防针,受疫情影响,市区定点的社康医院太少,导致预约号基本靠抢,根本是一号难求 每次预约都要一直守在手机旁,不停地刷新页面去抢号,太耽误功夫了, ...

  9. echart 饼图每一块间隙_花10分钟做酱香饼,简单方便又美味,酥脆咸香比买的还要好吃...

    花10分钟做酱香饼,简单方便又美味,酥脆咸香比买的还要好吃 前几年,在单位附近有一家只做酱香饼的小店,刚开张的时候排很长队,我为了一块酱香饼排队半小时.后来买酱香饼的人少了,我三天两头买一块酱香饼解馋 ...

最新文章

  1. 2022-2028年中国反射偏光膜行业市场研究及前瞻分析报告
  2. index.html安全文件,restorecon - 恢复文件的安全上下文
  3. mybatis select语句会默认带排序吗_MyBatis中#和$的区别详解
  4. CM: 如何通过attachment的physical instance id反查到所属的business object ID
  5. CF840D. Destiny
  6. opencv--图像金字塔
  7. 数学菜鸟和大佬的关注点有什么不同?
  8. 双目测距中用到的视差图和景深的关系推导----三种方法详细解
  9. c语言中递增递减运算符,递增++和递减-C ++中的运算符
  10. unity UI如何开启(显示)或者关闭(隐藏)Panel界面最好?
  11. Poj(2679),SPFA,邻接表(主流写法)
  12. 043 Tayler泰勒公式证明
  13. Bzoj1972: [Sdoi2010]猪国杀 题解(大模拟+耐心+细心)
  14. odi12配置mysql_通过ODI 12c同步PostgreSQL数据到FusionInsight LibrA
  15. java流意外结束_SyntaxError:输入节点js的意外结束
  16. webview 禁止苹果自动下拉_苹果开发者账号申请必备:双重认证教程!
  17. Request method ‘GET‘ not supported 405错误辨析总结
  18. 计算机显示硬盘故障是怎么回事,如果计算机硬盘出现故障怎么办
  19. Rosenblatt感知器
  20. 数据采集卡 html报表,网页表格数据采集助手

热门文章

  1. User Profile Data Web Part 读取属性字段
  2. 【青少年编程】【一级】 奔跑的马
  3. 数据结构与算法:15 树
  4. LeetCode实战:两数相加
  5. 【Codeforces】158B-Taxi(贪心,怎么贪咧)
  6. 【数据结构】图的深度优先遍历 广度优先遍历
  7. Pandas 数据挖掘与分析时的常用方法
  8. 程序员是复制粘贴的工具人?还是掌握“谜底”的魔术师?
  9. 苹果新算法已混进 iOS 14.3!CSAM 检测技术再遭网友争议
  10. 程序员门槛再被“神器”降低:只要会英文,就能写代码!