谷歌TPU训练BERT只要23秒,华为AI芯片达国际领先水平,MLPerf v0.7出炉
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
今天,人工智能行业权威“跑分”MLPerf训练v0.7出炉,这是该跑分推出以来第三次放榜。
英伟达刚发布的A100 GPU、谷歌即将推出的TPUv4,两个冤家的AI芯片性能孰强孰弱,在这份榜单里都能看到。
除了两家AI巨头相争,此次也是中国芯片首次在榜单中亮相,来自华为的昇腾910芯片实测成绩曝光,性能一度超越了英伟达同类产品。
MLPerf测试内容
随着AI技术的进步,今年的测试基准进一步加大了难度。
MLPerf训练测试基准包括图像分类、翻译、推荐系统和围棋等8个机器学习任务中,最终结果是这8项任务的训练时间,速度越快则性能越强。
具体的8项任务内容如下:
其中后三项是新加入或重新制定的标准:
1、BERT:用Wikipedia语料库训练BERT,这是首次将BERT引入MLPerf测试基准。
2、DLRM:用Criteo AI Lab的Terabyte点击率数据集训练的深度学习推荐模型(DLRM),广泛用于在线购物推荐、搜索结果和社交媒体内容排序。
3、Mini-Go:之前的MLPerf v0.5和v0.6也有训练围棋的强化学习任务,但却是迷你棋盘,此次v0.7将棋盘扩大为19x19全尺寸,这更能反映研究成果。
了解过测试内容后,我们来看看各家的跑分成绩。
BERT训练刷新纪录
今年英伟达和谷歌两家公司都拿出了自己最强的硬件参与竞争。
英伟达方面,他们打破了16项AI训练测试纪录,而谷歌则表示,自己在全部8项任务中有6项获得了最高成绩。
得益于两家的激烈竞争,AI训练速度有了飞速发展。有一些在5年前还需要训练3周的任务,现在只需不到1分钟即可完成,几乎是一年提高一个数量级。
令人印象最深刻的还是BERT,这个NLP模型在刚推出时需要训练3天时间。
去年,谷歌用1024块TPUv3将训练时间缩短到76分钟,英伟达又用1472个V100 GPU将训练时间进一步减少到53分钟。
在最新的MLPerf中,英伟达只花了49秒就完成了BERT的训练,他们用了一台包含2048个A100 GPU的超级计算机SuperPOD。
作为对比,英伟达还表示,谷歌用16个TPUv3训练了56.7分钟才完成。(看看,我们才用了不到1分钟!)
然而,实际上谷歌比他们的速度更快,谷歌的一个研究项目使用了4096块TPU芯片,在训练BERT上获得了绝对最高的成绩——23秒!
需要注意的是,这次训练BERT的数据集和去年并不相同,但是把BERT训练时间缩短到半分钟内已经足够惊人。
谷歌声称,快速训练BERT用的是世界上最快的机器学习训练超算,其内部有4096个TPU v3芯片和数百个CPU主机,所有芯片都通过超快速、超大规模的定制互连进行连接,可提供430PFLOP的峰值性能。
这台超算在4项任务中都把训练时间缩到半分钟内。
华为芯片首次亮相
另外,在训练芯片榜单上,我们首次看到了国产芯片的身影。
中科院深圳先进技术研究所提供了华为昇腾910的测试成绩,虽然仅测试了ResNet-50一项,但是相同规模的情况下,其速度已经超过了英伟达的V100 GPU。
同样使用128个至强白金CPU和512个AI加速芯片,昇腾910在ImageNet任务中,训练ResNet-50只需1.59分钟,而英伟达V100需要2.35分钟。
华为昇腾910不仅可以运行自研的MindSpore框架,也能运行谷歌的TensorFlow框架。两者性能差距很小,后者的训练时间为1.53分钟,比在MindSpore框架上运行时间稍短。
不过,从这份榜单中可以看出,国产AI芯片任重道远,英伟达仍在商业领域占据主导地位。
参与测试的多家公司使用的均是英伟达GPU,不久前推出的A100 GPU也迅速得到商用。戴尔、阿里、富士通、腾讯、浪潮,甚至连谷歌自己,都是英伟达的客户。
而且台积电将停止为华为代工芯片,使华为自研AI芯片的未来蒙上了一层阴影。
谷歌TPUv4泄露
此次MLPerf跑分还泄露了谷歌新一代TPU的性能指标。
相比两年前的TPUv3,谷歌的TPUv4带来平均2.7倍的性能提升。
更可怕的是,谷歌23秒训练完BERT使用的是TPUv3,而使用256块TPUv4训练BERT的时间是1.82分钟。
至于更大规模的TPUv4计算集群会带来怎样恐怖的成绩,或许只能等谷歌正式发布后才能知晓。
关于MLPerf
MLPerf是业内首套衡量机器学习软硬件性能的通用基准,由图灵奖得主David Patterson联合谷歌和几所著名高校于2018年发起。
MLPerf基准联盟现有83家成员,包括谷歌、英伟达、微软、Facebook、阿里巴巴等73家企业和斯坦福、哈佛、多伦多大学等10所高校。
2018年,MLPerf发布了首个AI训练测试基准v0.5,v0.7是第三个AI训练跑分榜单。去年,该组织还发布过AI推理测试基准v0.5,国产芯片阿里含光800曾获得多项第一。
榜单地址:
https://mlperf.org/training-results-0-7
参考链接:
https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer
https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
今晚,美国NASA的火星车“毅力号”将启程前往火星,迈出人类“往返火星”第一步。
晚上19:00,跟着专家来一起来了解迄今最复杂、最大的火星车,以及它的火星任务吧!
今晚直播
专家解读NASA火星车发射
????????????
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
谷歌TPU训练BERT只要23秒,华为AI芯片达国际领先水平,MLPerf v0.7出炉相关推荐
- 华为ai服务器芯片,华为AI芯片有什么用特殊在哪 与普通芯片有什么区别
华为AI芯片有什么用?与普通芯片有什么区别?华为率先在传统的手机SoC中加入独立的AI独立处理单元NPU后,AI独立处理单元的设计也成为了行业的发展趋势. 10月10日,在上海举行的2018华为全联接 ...
- 深度解读达芬奇架构:华为AI芯片的“秘密武器”
本文转自华为官网 2019年6月,华为发布全新8系列手机SoC芯片麒麟810,首次采用华为自研达芬奇架构NPU,实现业界领先端侧AI算力,在业界公认的苏黎世联邦理工学院推出的AI Benchmark榜 ...
- 华为 AI 芯片诞生;马云重当中国首富;微软修复数据删除 Bug | 极客头条
「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流. 快讯速知 华 ...
- 【TPU和GPU,谁将一统AI芯片】摩尔定律之后一万倍,10万+热文引爆激辩
正当AlphaGo 与柯洁等一众中国顶尖围棋高手在乌镇激战正酣之际,计算机体系结构专家王逵在新智元专栏的文章(<CPU和GPU双低效,摩尔定律之后一万倍 --写于TPU版AlphaGo重出江湖之 ...
- 智源社区周刊No.94:谷歌发布PaLM-SayCan,用大模型解析机器人指令;Dwork谈算法公平性;KDD2022奖项出炉...
汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 谷歌发布PaLM-SayCan:大模型引导机器人理解人类的指令并执行任务 查看详情 在过去 ...
- 终于出手!谷歌母公司旗下GV风投首次投资AI芯片创业公司
李杉 编译自 CNBC 量子位 出品 | 公众号 QbitAI 近日,谷歌母公司Alphabet旗下的风险投资机构GV,领投了AI硬件公司SambaNova Systems总额5600万美元的融资. ...
- 华为手机像素密度排行_最新手机性能排行榜出炉:高通骁龙865霸榜,前十不见华为!...
经过3月份手机厂商的一波新机轮番轰炸之后,市场上呈现了一片浓浓的"新老交替"的格局.4月1日,国内知名测试软件安兔兔发布了最新的智能手机性能排行榜,分为高端旗舰和中端产品榜,结果表 ...
- iPhone十周年撞上华为AI芯片 谁更有看头?
人工智能(AI)领域的快速发展,将对社会带来重大的影响,这引发了许多激烈的争论.一些人认为,它将驱动经济增长,为改善生活质量带来数不清的机会.尽管我们相信那些最深的恐惧其实是夸大其词的,但认知技术这一 ...
- 荣耀20青春版刷鸿蒙os,华为不忘老用户 5年前的华为手机也能升级鸿蒙OS 具体升级名单出炉...
6月2日晚,华为自研操作系统HarmonyOS 2终于正式发布.与此同时,华为还公布了"百机升级"计划,HarmonyOS 2将覆盖大量华为机型,甚至包括5年前发布的Mate9. ...
最新文章
- LruCache缓存处理及异步加载图片类的封装
- 中国担保市场竞争战略规划与运营效益分析报告2022-2027年版
- 1git命令的使用,查看git仓库状态,添加文件到git跟踪,git提交,查看git分支,查看git仓库日志信息,切换git分支,解决git分支合并后出现冲突的问题
- Redis Cluster高可用(HA)集群环境搭建详细步骤
- PHP专题-开发基础(七)
- 单片机 | 3种时钟电路方案对比,你常用哪一种?
- 的基本操作_Linux 基本操作命令总结
- 恶意混时间你不敢管,却要吓唬全体员工?
- 公安装备效能评估系统软件
- 全面解析 UI/UE/交互设计
- 【SPFA】【最短路】 腾讯大战360
- c++常对象和常成员函数详解
- THRESH_OTSU mode: > ‘src_type == CV_8UC1 || src_type == CV_16UC1‘ > where > ‘src_type‘ is 6
- 路由器dns服务器为空,家用路由器设置里的DNS服务器是什么?有什么作用呢?
- windows 安装达梦数据库Python 报错:fatal error C1083: Cannot open include file: ‘DPI.h‘: No such file or direc
- 我们的管理:项目管理
- Ble Mesh技术(一)之概览
- Ajax(跨域请求)
- wireshark的使用(二)
- ESP8266断网后自动重新连接Wi-Fi网络
热门文章
- 如何使用Git解决“错误:错误索引 - 致命:索引文件损坏”
- 如何删除输入文本元素上的边框突出显示
- 倒排索引PForDelta压缩算法——基本假设和霍夫曼压缩同
- 【翻译】【linux设备驱动】linux地址类型
- java性能调优03
- 1.2机器学习基础下--python深度机器学习
- C#进阶系列——DDD领域驱动设计初探(五):AutoMapper使用
- Kprobe在Linux kernel debug中的应用
- Python处理MLDonkey 下载中文文件乱码问题 (2)
- python花萼长度表_Python 数据分析答疑 5:Pandas入门