周枫注:NVidia新的Volta GPU的最大特点就是增加了张量核Tensor Core,现在有了更多架构信息,以及实际的性能数据。

本文转自周枫的微信公众号(youdaozhoufeng)

在2017年的Hot Chips会议上,NVIDIA展示了更多关于他们新的Volta架构的信息。具体来说,话题是NVIDIA Tesla V100 GPU。目前,英伟达已经开始在数量有限的情况下提供基于Volta的GPU,本季度我们预计DGX-1将得到V100更新。在深度学习领域,这一代的NVIDIA硬件明显跨越了AMD的最新产品。

 NVIDIA Tesla V100概述

可以看到,NVIDIA Tesla V100有80个流处理器(SM)。这张幻灯片上的小脚注,我们可以从座位上清楚地看到。该公司表示,完整的GP100芯片包含84个流处理器,因此NVIDIA是采用了Binning,以提高产量。

在性能方面,英伟达特斯拉(Tesla V100)的数字有时会令人难以置信。

NVIDIA Tesla V100和P100比较

这里的关键是NVIDIA正在采用更大的缓存,并为深度学习空间增加特定的加速器,同时增强了整体带宽。

我们确实想要快速展示一下SM核心。人们会注意到SM核心有一个大的张量核(Tensor Core)。在这里NVIDIA这代的关注点就很明确了。

       英伟达V100 SM核心

我们不会花太多时间来讨论英伟达在SM方面所呈现的文本。和大多数的架构改进一样,新的NVIDIA Volta GV100更多的性能而设计的。

  英伟达Volta GV100 SM

同样,这里是微架构视图:

     NVIDIA Volta V100 SM微架构

和sub-core视图:

       NVIDIA Volta V100 Sub Core

这里的关键是两个4x4x4张量核。这就是让Volta成为革命性飞跃的秘诀。

NVIDIA的另一个领域是L1缓存和共享内存。

     NVIDIA Volta V100共享内存

如果您知道您的工作负载可以利用这些数据局部性,那么现在可以将缓存作为共享内存使用。由于NVIDIA增加了L1和L2缓存,我们看到了比游戏所需的更多的计算驱动架构。

 英伟达V100的张量核(Tensor Core)

张量核可以进行混合精度的4×4矩阵数学。

       NVIDIA V100张量核心数学

这是训练深度学习模式的关键操作。通过改进调度,NVIDIA可以做16×16矩阵数学。

英伟达V100张量同步

这是NVIDIA在Volta张量操作上展示的另一个视图,展示了如何使用较低的精度FP16输入并到达FP32输出。

       英伟达V100张量操作

在结果方面,英伟达声称一些操作将会出现9.3倍的加速。

NVIDIA V100和P100深度学习性能比较

我们需要注意的是,以上NVIDIA将CUDA 8与CUDA 9软件的收益,和特定工作负载下的硬件收益结合在一起。

NVLINK更新

NVIDIA声称新的GV100 NVLINK将提供更多的带宽,达到1.9x,我们在GP100上看到的。

       NVIDIA NVLINK节点

GV100将有多达6个NVLINK连接,它允许一些拓扑结构,以方便GPU与GPU连接。这当然是一种比我们在PCIe交换机中看到的得到更多GPU间带宽的方法。单根v双根深度学习的GPU到GPU系统。

最后的话

在NVIDIA的Tesla Volta V100演讲中,有一些关键的结论。首先,很明显,驱动数据中心的销售是这一代产品的一个架构目标。第二,我们必须考虑所有这些添加的逻辑是否对消费级产品有意义。英伟达在深度学习领域取得成功的关键之一是,高性能的CUDA训练可以在使用该公司的游戏GPU的台式电脑上进行。从NVIDIA展示的图中来看,人们不得不怀疑张量核(Tensor Core)是否会成为游戏产品线的一部分。NVIDIA Tesla V100作为高端产品自然拥有高端功能,但在V100设计中,似乎有很多用于非传统GPU(游戏)任务的硅。

(以上内容来自servethehome.com文章的有道机翻,稍加修正,看原文戳原文链接)

原文地址:

https://www.servethehome.com/nvidia-v100-volta-update-hot-chips-2017/

译文地址:

https://mp.weixin.qq.com/s/1f-D87NJ5IozLGF45Qs3xg

技术 | 有道CEO周枫:NVidia Volta GPU深度学习性能提升近10倍相关推荐

  1. 估值11亿美元新独角兽诞生,网易有道CEO周枫:宁愿十年挖一口井

    "别把不吭声的鳄鱼当壁虎". 昨天,网易高级副总裁.有道CEO周枫宣布网易有道获得慕华投资.君联资本首轮融资,估值11.2亿美元,跻身互联网独角兽俱乐部行列. 用丁磊之前的话来形容 ...

  2. 网易有道CEO周枫:在线教育的冰山

    2019独角兽企业重金招聘Python工程师标准>>> 网易有道CEO周枫:在线教育的冰山 网易公司高级副总裁.网易有道CEO周枫表示,在线教育从规模.惯性.及隐蔽性上均具备&quo ...

  3. 有道CEO周枫:当我们谈论大模型时,应该关注哪些新能力?

    作者:周枫 基于大语言模型技术的ChatGPT推出已经有4个月了,更多同类产品还在快速出现.比如,前天谷歌更新了Bard,将辅助编程能力支持的语言数量扩展到20种. 然而,对大模型技术的重要性也出现了 ...

  4. 有道少儿词典正式上线,CEO周枫发朋友圈:“是时候让小学生词典进入互联网时代了”...

    雷锋网消息,1月3日,有道少儿词典正式上线,据介绍,该款词典专为小学生的语文和英语学习设计,从内容.功能到交互体验实现全方位的少儿化,堪称有道词典"少儿版". 为什么推出有道词典& ...

  5. NVIDIA:关于深度学习Benchmark,英特尔错了

    针对Intel发表的一份关于Xeon Phi与NVIDIA GPU深度学习性能对比的Benchmark,NVIDIA加速计算业务副总裁Ian Buckf撰写博客文章,对Intel的核心观点进行逐一驳斥 ...

  6. NVIDIA TensorRT高性能深度学习推理

    NVIDIA TensorRT高性能深度学习推理 NVIDIA TensorRT™ 是用于高性能深度学习推理的 SDK.此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和 ...

  7. 基于NVIDIA GPUs的深度学习训练新优化

    基于NVIDIA GPUs的深度学习训练新优化 New Optimizations To Accelerate Deep Learning Training on NVIDIA GPUs 不同行业采用 ...

  8. NVIDIA GPUs上深度学习推荐模型的优化

    NVIDIA GPUs上深度学习推荐模型的优化 Optimizing the Deep Learning Recommendation Model on NVIDIA GPUs 推荐系统帮助人在成倍增 ...

  9. 什么是CUDA和CUDNN?——GeForce NVIDIA显卡用于深度学习计算的GPU加速工具

    1.什么是CUDA? CUDA的概念 统一计算架构CUDA(Compute Unified Device Architecture)是为了让nvidia gpu可以完成通用计算任务的一种集成技术 ,通 ...

最新文章

  1. win10安装配置gcc编译环境
  2. java redis 存session_JavaWeb: Redis存储Session方案
  3. { parser: babylon } is deprecated; we now treat it as { parser: babel }.
  4. vue调用手机相机相册_今天才发现,点一下小米手机相册,能将照片一键制作成电影...
  5. C#:解决WCF中服务引用 自动生成代码不全的问题。
  6. 判断本地和云端通讯录是否一致
  7. MicrosoftFixit50688 [Windows7事件ID10,WMI错误的解决方法
  8. 变量的解构赋值(对象)
  9. web开发技术复习笔记
  10. MATLAB函数随笔画图篇
  11. vue下载与安装详细教程
  12. 面试官:测试计划和测试方案有什么区别?
  13. 【Python实战】手把手超详细教程教你Scrapy爬达盖尔社区,有彩蛋
  14. 关于中文分词的一元分词讨论
  15. android控制台字体大小设置,Android studio 4.1 豆沙护眼色配置、字体大小设置、内存大小设置...
  16. android canvas 工作流_Activiti工作流引擎使用
  17. MySQL对时间戳的格式化
  18. 趣店能否撑起百亿美元市值!
  19. matlab bar 填充花纹,Matlab中画花纹填充的柱状图
  20. 去AV片马赛克,开发者被抓了

热门文章

  1. C# LINQ的Select与SelectMany函数
  2. 黑盒测试技术(概念等价类划分法详细)——软件质量保证与测试
  3. HCIA 交换机原理与ARP协议
  4. Android判断软键盘 输入法 是否显示
  5. 发那科机器人plc电池_FANUC机器人维修保养故障简析
  6. 中国医科大学2021年9月《急危重症护理学》作业考核试题
  7. Kibana语句整理(KQL)
  8. [转]冬天上厕所,马桶太冷怎么办?
  9. 在种子轮中,如何区分风险投资、种子投资和天使投资?
  10. java echarts 生成图片_java如何在后台生成echarts图表?实际代码展示