英伟达A100可达V100的3.5倍?
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
子豪 发自 凹非寺
量子位 报道 | 公众号 QbitAI
英伟达最新发布的基于新架构的A100加速计算卡,其官网宣传:
自动混合精度和FP16,可以为A100带来2倍的性能提升;
而且,在不更改代码的情况下,具有TF32的A100与英伟达Volta相比,性能能够高出20倍。
那么,A100与V100相比,究竟如何?最近Lambda网站真的把它俩的训练速度对比了一番。
硬件参数对比
△ 英伟达A100 GPU
相比V100,A100的单精度浮点计算能力,从15.7TFLOPS提升至19.5TFLOPS;而双精度浮点运算从7.8TFLOPS提升至9.7TFLOPS。
在英伟达的公开信息中,列出了A100与V100的参数对比:
在BERT深度学习训练中,二者的速度对比:
在其他训练模型下,A100是否能有同样出色的表现?
测试结果如何?
二者均选择适用于NVLink的产品进行测试,在32位精度下,采用PyTorch训练。
对于A100,32位是指FP32+TF32;对于V100,指的是FP32。
测试分为两部分:卷积神经网络训练速度、语言模型训练速度。
卷积神经网络训练速度
测试者将一块V100的32位的训练速度归一化,对比了不同数量GPU的训练速度。
将结果在SSD、ResNet-50和Mask RCNN上取平均值。(原始数据可通过文末链接查看)
得到结果:
例如:
1块A100 VS 1块V100,进行32位训练:前者速度是后者的2.17倍;
4块V100 VS 1块V100,进行32位训练:前者速度是后者的3.88倍;
8块A100的混合精度训练 VS 1块V100的32位训练:前者速度是后者的20.35倍。
语言模型训练速度
与上面的对比方法相同。
将结果在Transformer-XL base、Transformer-XL large、Tacotron 2和ERT-base SQuAD上取平均值。(原始数据可通过文末链接查看)
得到结果:
例如:
1块A100 VS 1块V100,进行32位训练:前者速度是后者的3.39倍;
4块V100的混合精度训练 VS 1块V100的32位训练:前者速度是后者的7.97倍;
8块A100的混合精度训练 VS 1块V100的32位训练:前者速度是后者的42.60倍。
结论
在卷积神经网络训练中:
1块A100的训练速度是1块V100的2.2倍;
使用混合精度时,前者则是后者的1.6倍。
在语言模型训练中:
1块A100的训练速度是1一块V100的3.4倍;
使用混合精度时,前者则是后者的2.6倍。
其中,分别用8块A100与8块V100,进行32位训练:前者速度能够达到后者的3.5倍;
看来,针对不同模式下的深度学习训练,英伟达A100都有着相当不错的效率。
“前所未有的规模”以及“惊人的性能”,所言不虚。
原文链接:
https://lambdalabs.com/blog/NVIDIA-a100-vs-v100-benchmarks/
测试原始数据:
https://lambdalabs.com/gpu-benchmarks
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
点个在看 paper不断!
英伟达A100可达V100的3.5倍?相关推荐
- 实测 | 英伟达A100深度学习性能:训练速度高达V100的3.5倍!
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习> ...
- 谷歌大动作!TPU超算系统大升级,全面超越英伟达A100
编|泽南 源|机器之心 性能和效率都超越英伟达 A100,这样的超算我有不止十台. 我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI. ...
- 扔掉老破V100、A100,英伟达新一代计算卡H100来了!
编 | 泽南.杜伟 源 | 机器之心 黄仁勋:芯片每代性能都翻倍,而且下个「TensorFlow」级 AI 工具可是我英伟达出的. 每年春天,AI 从业者和游戏玩家都会期待英伟达的新发布,今年也不例外 ...
- Meta为元宇宙建全球最快AI超算,1.6万个A100 GPU,英伟达都赚麻了
晓查 发自 凹非寺 量子位 | 公众号 QbitAI 今天,扎克伯格宣布,Meta要建造全球最快的AI超级计算机,而且就在2022年年中建成. 这台超算被命名为"AI研究超级集群" ...
- 本周AI热点回顾:百度推出全球首个mRNA疫苗不稳定性解决方案、性能提升20倍:英伟达GPU旗舰A100
01 百度推出全球首个mRNA疫苗不稳定性解决方案LinearDesign 新冠疫情爆发后,RNA设计领域世界知名专家.斯坦福大学生物化学系Rhiju Das教授关注到疫苗研发存在的一个非常棘手的问题 ...
- 5300亿NLP模型“威震天-图灵”发布,由4480块A100训练,微软英伟达联合出品
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 5300 ...
- 有人从英伟达借了台DGX A100,让神经网络自己造了个GTA5自己玩
视学算法报道 机器之心编辑部 人类玩家游戏还没玩通,AI 已经能造个游戏了. 侠盗猎车手 5(GTA5)是一款经典的动作冒险游戏,深受玩家欢迎,多个研究团队曾为它推出补丁,以使其具有更加逼真的游戏质感 ...
- 30亿美金投入!一文读懂英伟达性能凶残的Tesla V100牛在哪?
来源:智东西 概要:AI已无处不在,两股力量正推动计算机领域的未来. GTC CHINA 2017大会上,英伟达创始人兼CEO黄仁勋表示,AI已无处不在,两股力量正推动计算机领域的未来.第一.摩尔定律 ...
- 华为算力最强AI芯片商用:2倍于英伟达V100!开源AI框架,对标TensorFlow和PyTorch...
乾明 边策 一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI 刚刚,华为业界算力最强的AI芯片正式商用. 并且宣布自研AI框架MindSpore开源,直接对标业界两大主流框架--谷歌的Te ...
最新文章
- 暑期集训2:ACM基础算法 练习题B:CF-1008B
- 值得收藏!16段代码入门Python循环语句
- (转载)jdbc事务处理
- 学习事务,视图和索引
- python得到一个10位随机数的方法及拓展
- windows杀死指定端口号
- 请查收 | 2021 阿里妈妈技术文章回顾
- 专业软件 —— 硬件评测
- 关闭word_Word文档如何快速查找?超实用的5个Word技巧教给你
- kubernetes集群应用部署实例
- STL之ForwordList
- 重新组织和重新生成索引sp_RefreshIndex
- 用java中的map解析微信MicroMsg里的CompatibleInfo.cfg和systemInfo.cfg
- python实战篇(七)---一寸照换背景
- 笔记——关于每次重启之后,虚拟机网络无网络访问权限的解决方法
- mmdetection3D---(1)
- ps滤镜之旋转扭曲算法实现
- 例题9-27 方块消除 UVa10559
- Java 面试题大全(一篇足以,建议收藏)
- tabindex 用法说明