技术 | 有道CEO周枫:NVidia Volta GPU深度学习性能提升近10倍
周枫注:NVidia新的Volta GPU的最大特点就是增加了张量核Tensor Core,现在有了更多架构信息,以及实际的性能数据。
本文转自周枫的微信公众号(youdaozhoufeng)
在2017年的Hot Chips会议上,NVIDIA展示了更多关于他们新的Volta架构的信息。具体来说,话题是NVIDIA Tesla V100 GPU。目前,英伟达已经开始在数量有限的情况下提供基于Volta的GPU,本季度我们预计DGX-1将得到V100更新。在深度学习领域,这一代的NVIDIA硬件明显跨越了AMD的最新产品。
NVIDIA Tesla V100概述
可以看到,NVIDIA Tesla V100有80个流处理器(SM)。这张幻灯片上的小脚注,我们可以从座位上清楚地看到。该公司表示,完整的GP100芯片包含84个流处理器,因此NVIDIA是采用了Binning,以提高产量。
在性能方面,英伟达特斯拉(Tesla V100)的数字有时会令人难以置信。
NVIDIA Tesla V100和P100比较
这里的关键是NVIDIA正在采用更大的缓存,并为深度学习空间增加特定的加速器,同时增强了整体带宽。
我们确实想要快速展示一下SM核心。人们会注意到SM核心有一个大的张量核(Tensor Core)。在这里NVIDIA这代的关注点就很明确了。
英伟达V100 SM核心
我们不会花太多时间来讨论英伟达在SM方面所呈现的文本。和大多数的架构改进一样,新的NVIDIA Volta GV100更多的性能而设计的。
英伟达Volta GV100 SM
同样,这里是微架构视图:
NVIDIA Volta V100 SM微架构
和sub-core视图:
NVIDIA Volta V100 Sub Core
这里的关键是两个4x4x4张量核。这就是让Volta成为革命性飞跃的秘诀。
NVIDIA的另一个领域是L1缓存和共享内存。
NVIDIA Volta V100共享内存
如果您知道您的工作负载可以利用这些数据局部性,那么现在可以将缓存作为共享内存使用。由于NVIDIA增加了L1和L2缓存,我们看到了比游戏所需的更多的计算驱动架构。
英伟达V100的张量核(Tensor Core)
张量核可以进行混合精度的4×4矩阵数学。
NVIDIA V100张量核心数学
这是训练深度学习模式的关键操作。通过改进调度,NVIDIA可以做16×16矩阵数学。
英伟达V100张量同步
这是NVIDIA在Volta张量操作上展示的另一个视图,展示了如何使用较低的精度FP16输入并到达FP32输出。
英伟达V100张量操作
在结果方面,英伟达声称一些操作将会出现9.3倍的加速。
NVIDIA V100和P100深度学习性能比较
我们需要注意的是,以上NVIDIA将CUDA 8与CUDA 9软件的收益,和特定工作负载下的硬件收益结合在一起。
NVLINK更新
NVIDIA声称新的GV100 NVLINK将提供更多的带宽,达到1.9x,我们在GP100上看到的。
NVIDIA NVLINK节点
GV100将有多达6个NVLINK连接,它允许一些拓扑结构,以方便GPU与GPU连接。这当然是一种比我们在PCIe交换机中看到的得到更多GPU间带宽的方法。单根v双根深度学习的GPU到GPU系统。
最后的话
在NVIDIA的Tesla Volta V100演讲中,有一些关键的结论。首先,很明显,驱动数据中心的销售是这一代产品的一个架构目标。第二,我们必须考虑所有这些添加的逻辑是否对消费级产品有意义。英伟达在深度学习领域取得成功的关键之一是,高性能的CUDA训练可以在使用该公司的游戏GPU的台式电脑上进行。从NVIDIA展示的图中来看,人们不得不怀疑张量核(Tensor Core)是否会成为游戏产品线的一部分。NVIDIA Tesla V100作为高端产品自然拥有高端功能,但在V100设计中,似乎有很多用于非传统GPU(游戏)任务的硅。
(以上内容来自servethehome.com文章的有道机翻,稍加修正,看原文戳原文链接)
原文地址:
https://www.servethehome.com/nvidia-v100-volta-update-hot-chips-2017/
译文地址:
https://mp.weixin.qq.com/s/1f-D87NJ5IozLGF45Qs3xg
技术 | 有道CEO周枫:NVidia Volta GPU深度学习性能提升近10倍相关推荐
- 估值11亿美元新独角兽诞生,网易有道CEO周枫:宁愿十年挖一口井
"别把不吭声的鳄鱼当壁虎". 昨天,网易高级副总裁.有道CEO周枫宣布网易有道获得慕华投资.君联资本首轮融资,估值11.2亿美元,跻身互联网独角兽俱乐部行列. 用丁磊之前的话来形容 ...
- 网易有道CEO周枫:在线教育的冰山
2019独角兽企业重金招聘Python工程师标准>>> 网易有道CEO周枫:在线教育的冰山 网易公司高级副总裁.网易有道CEO周枫表示,在线教育从规模.惯性.及隐蔽性上均具备&quo ...
- 有道CEO周枫:当我们谈论大模型时,应该关注哪些新能力?
作者:周枫 基于大语言模型技术的ChatGPT推出已经有4个月了,更多同类产品还在快速出现.比如,前天谷歌更新了Bard,将辅助编程能力支持的语言数量扩展到20种. 然而,对大模型技术的重要性也出现了 ...
- 有道少儿词典正式上线,CEO周枫发朋友圈:“是时候让小学生词典进入互联网时代了”...
雷锋网消息,1月3日,有道少儿词典正式上线,据介绍,该款词典专为小学生的语文和英语学习设计,从内容.功能到交互体验实现全方位的少儿化,堪称有道词典"少儿版". 为什么推出有道词典& ...
- NVIDIA:关于深度学习Benchmark,英特尔错了
针对Intel发表的一份关于Xeon Phi与NVIDIA GPU深度学习性能对比的Benchmark,NVIDIA加速计算业务副总裁Ian Buckf撰写博客文章,对Intel的核心观点进行逐一驳斥 ...
- NVIDIA TensorRT高性能深度学习推理
NVIDIA TensorRT高性能深度学习推理 NVIDIA TensorRT™ 是用于高性能深度学习推理的 SDK.此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和 ...
- 基于NVIDIA GPUs的深度学习训练新优化
基于NVIDIA GPUs的深度学习训练新优化 New Optimizations To Accelerate Deep Learning Training on NVIDIA GPUs 不同行业采用 ...
- NVIDIA GPUs上深度学习推荐模型的优化
NVIDIA GPUs上深度学习推荐模型的优化 Optimizing the Deep Learning Recommendation Model on NVIDIA GPUs 推荐系统帮助人在成倍增 ...
- 什么是CUDA和CUDNN?——GeForce NVIDIA显卡用于深度学习计算的GPU加速工具
1.什么是CUDA? CUDA的概念 统一计算架构CUDA(Compute Unified Device Architecture)是为了让nvidia gpu可以完成通用计算任务的一种集成技术 ,通 ...
最新文章
- win10安装配置gcc编译环境
- java redis 存session_JavaWeb: Redis存储Session方案
- { parser: babylon } is deprecated; we now treat it as { parser: babel }.
- vue调用手机相机相册_今天才发现,点一下小米手机相册,能将照片一键制作成电影...
- C#:解决WCF中服务引用 自动生成代码不全的问题。
- 判断本地和云端通讯录是否一致
- MicrosoftFixit50688 [Windows7事件ID10,WMI错误的解决方法
- 变量的解构赋值(对象)
- web开发技术复习笔记
- MATLAB函数随笔画图篇
- vue下载与安装详细教程
- 面试官:测试计划和测试方案有什么区别?
- 【Python实战】手把手超详细教程教你Scrapy爬达盖尔社区,有彩蛋
- 关于中文分词的一元分词讨论
- android控制台字体大小设置,Android studio 4.1 豆沙护眼色配置、字体大小设置、内存大小设置...
- android canvas 工作流_Activiti工作流引擎使用
- MySQL对时间戳的格式化
- 趣店能否撑起百亿美元市值!
- matlab bar 填充花纹,Matlab中画花纹填充的柱状图
- 去AV片马赛克,开发者被抓了