点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

子豪 发自 凹非寺
量子位 报道 | 公众号 QbitAI

英伟达最新发布的基于新架构的A100加速计算卡,其官网宣传:

自动混合精度和FP16,可以为A100带来2倍的性能提升;

而且,在不更改代码的情况下,具有TF32的A100与英伟达Volta相比,性能能够高出20倍。

那么,A100与V100相比,究竟如何?最近Lambda网站真的把它俩的训练速度对比了一番。

硬件参数对比

英伟达A100 GPU

相比V100,A100的单精度浮点计算能力,从15.7TFLOPS提升至19.5TFLOPS;而双精度浮点运算从7.8TFLOPS提升至9.7TFLOPS。

在英伟达的公开信息中,列出了A100与V100的参数对比:

在BERT深度学习训练中,二者的速度对比:

在其他训练模型下,A100是否能有同样出色的表现?

测试结果如何?

二者均选择适用于NVLink的产品进行测试,在32位精度下,采用PyTorch训练。

对于A100,32位是指FP32+TF32;对于V100,指的是FP32。

测试分为两部分:卷积神经网络训练速度、语言模型训练速度。

卷积神经网络训练速度

测试者将一块V100的32位的训练速度归一化,对比了不同数量GPU的训练速度。

将结果在SSD、ResNet-50和Mask RCNN上取平均值。(原始数据可通过文末链接查看)

得到结果:

例如:

  • 1块A100 VS 1块V100,进行32位训练:前者速度是后者的2.17倍;

  • 4块V100 VS 1块V100,进行32位训练:前者速度是后者的3.88倍;

  • 8块A100的混合精度训练 VS 1块V100的32位训练:前者速度是后者的20.35倍。

语言模型训练速度

与上面的对比方法相同。

将结果在Transformer-XL base、Transformer-XL large、Tacotron 2和ERT-base SQuAD上取平均值。(原始数据可通过文末链接查看)

得到结果:

例如:

  • 1块A100 VS 1块V100,进行32位训练:前者速度是后者的3.39倍;

  • 4块V100的混合精度训练 VS 1块V100的32位训练:前者速度是后者的7.97倍;

  • 8块A100的混合精度训练 VS 1块V100的32位训练:前者速度是后者的42.60倍。

结论

  • 在卷积神经网络训练中:

1块A100的训练速度是1块V100的2.2倍;

使用混合精度时,前者则是后者的1.6倍。

  • 在语言模型训练中:

1块A100的训练速度是1一块V100的3.4倍;

使用混合精度时,前者则是后者的2.6倍。

其中,分别用8块A100与8块V100,进行32位训练:前者速度能够达到后者的3.5倍;

看来,针对不同模式下的深度学习训练,英伟达A100都有着相当不错的效率。

“前所未有的规模”以及“惊人的性能”,所言不虚。

原文链接:
https://lambdalabs.com/blog/NVIDIA-a100-vs-v100-benchmarks/

测试原始数据:
https://lambdalabs.com/gpu-benchmarks

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

英伟达A100可达V100的3.5倍?相关推荐

  1. 实测 | 英伟达A100深度学习性能:训练速度高达V100的3.5倍!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习> ...

  2. 谷歌大动作!TPU超算系统大升级,全面超越英伟达A100

    编|泽南 源|机器之心 性能和效率都超越英伟达 A100,这样的超算我有不止十台. 我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI. ...

  3. 扔掉老破V100、A100,英伟达新一代计算卡H100来了!

    编 | 泽南.杜伟 源 | 机器之心 黄仁勋:芯片每代性能都翻倍,而且下个「TensorFlow」级 AI 工具可是我英伟达出的. 每年春天,AI 从业者和游戏玩家都会期待英伟达的新发布,今年也不例外 ...

  4. Meta为元宇宙建全球最快AI超算,1.6万个A100 GPU,英伟达都赚麻了

    晓查 发自 凹非寺 量子位 | 公众号 QbitAI 今天,扎克伯格宣布,Meta要建造全球最快的AI超级计算机,而且就在2022年年中建成. 这台超算被命名为"AI研究超级集群" ...

  5. 本周AI热点回顾:百度推出全球首个mRNA疫苗不稳定性解决方案、性能提升20倍:英伟达GPU旗舰A100

    01 百度推出全球首个mRNA疫苗不稳定性解决方案LinearDesign 新冠疫情爆发后,RNA设计领域世界知名专家.斯坦福大学生物化学系Rhiju Das教授关注到疫苗研发存在的一个非常棘手的问题 ...

  6. 5300亿NLP模型“威震天-图灵”发布,由4480块A100训练,微软英伟达联合出品

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 5300 ...

  7. 有人从英伟达借了台DGX A100,让神经网络自己造了个GTA5自己玩

    视学算法报道 机器之心编辑部 人类玩家游戏还没玩通,AI 已经能造个游戏了. 侠盗猎车手 5(GTA5)是一款经典的动作冒险游戏,深受玩家欢迎,多个研究团队曾为它推出补丁,以使其具有更加逼真的游戏质感 ...

  8. 30亿美金投入!一文读懂英伟达性能凶残的Tesla V100牛在哪?

    来源:智东西 概要:AI已无处不在,两股力量正推动计算机领域的未来. GTC CHINA 2017大会上,英伟达创始人兼CEO黄仁勋表示,AI已无处不在,两股力量正推动计算机领域的未来.第一.摩尔定律 ...

  9. 华为算力最强AI芯片商用:2倍于英伟达V100!开源AI框架,对标TensorFlow和PyTorch...

    乾明 边策 一璞 发自 凹非寺  量子位 报道 | 公众号 QbitAI 刚刚,华为业界算力最强的AI芯片正式商用. 并且宣布自研AI框架MindSpore开源,直接对标业界两大主流框架--谷歌的Te ...

最新文章

  1. 暑期集训2:ACM基础算法 练习题B:CF-1008B
  2. 值得收藏!16段代码入门Python循环语句
  3. (转载)jdbc事务处理
  4. 学习事务,视图和索引
  5. python得到一个10位随机数的方法及拓展
  6. windows杀死指定端口号
  7. 请查收 | 2021 阿里妈妈技术文章回顾
  8. 专业软件 —— 硬件评测
  9. 关闭word_Word文档如何快速查找?超实用的5个Word技巧教给你
  10. kubernetes集群应用部署实例
  11. STL之ForwordList
  12. 重新组织和重新生成索引sp_RefreshIndex
  13. 用java中的map解析微信MicroMsg里的CompatibleInfo.cfg和systemInfo.cfg
  14. python实战篇(七)---一寸照换背景
  15. 笔记——关于每次重启之后,虚拟机网络无网络访问权限的解决方法
  16. mmdetection3D---(1)
  17. ps滤镜之旋转扭曲算法实现
  18. 例题9-27 方块消除 UVa10559
  19. Java 面试题大全(一篇足以,建议收藏)
  20. tabindex 用法说明

热门文章

  1. .NET判断字符串是否是数值型或xxx型
  2. 尚育鹏:Leetcode刷题总结(数组)
  3. LeetCode实战:除自身以外数组的乘积
  4. 【怎样写代码】实现对象的复用 -- 享元模式(一):问题案例
  5. Matlab与线性代数 -- 数组的乘法与除法
  6. 最近邻插值实现:图像任意尺寸变换
  7. 【CTF】实验吧 围在栅栏中的爱
  8. 清明出游,你会“鸽”酒店吗?AI 早已看穿一切
  9. 百万美元技术大奖,雷军颁给了秒充和隐私保护技术团队
  10. 2020,国产AI开源框架“亮剑”TensorFlow、PyTorch