– 2017年

1. Introduction to the NVIDIA Tesla V100 GPU Architecture

新的NVIDIA®Tesla®V100加速器(如图1所示)集成了强大的新
Volta™GV100 GPU。GV100不仅建立在其前身Pascal™的基础上
GP100 GPU,它显著提高了性能和可扩展性,并增加了许多提高可编程性的新特性。这些进步将为高性能计算、数据中心、超级计算机以及深度学习系统和应用提供动力。

2. Tesla V100:The AI Computing andd HPC PowerHouse

GV100 GPU包含 21.1 billion transistors 个晶体管,芯片尺寸为 815 mm2。它是在一个新的台积电12纳米FFN (FinFET NVIDIA)高性能制造工艺定制
与之前的Pascal GPU一代相比,GV100提供了更多的计算性能,并添加了许多新特性。GV100不仅简化了GPU编程和应用移植,还提高了GPU的资源利用率。GV100是一款非常高效的处理器,每瓦的性能非常出色。

KEY FEATURES:
2.1 New Streaming Multiprocessor (SM) Architecture Optimized for Deep Learning
Volta的特点是在GPU的中心位置重新设计了SM处理器架构。新的Volta SM比上一代Pascal设计节能50%,使FP32和FP64的性能在相同的功率范围内大幅提升。
专门为深度学习设计的**新张量核心(Tensor Cores)**可为训练提供高达12倍的峰值TFLOPS,为推理提供高达6倍的峰值TFLOPS。通过独立的并行整数和浮点数据路径,Volta SM在混合计算和寻址计算的工作负载下效率也高得多。

2.2 Second-Generation NVIDIA NVLink
第二代 NVIDIA 的 NVLink 高速互连提供了更高的带宽,更多的链路,以及针对多GPU 和 多GPU/CPU 系统配置的改进的可伸缩性。Volta GV100支持最多6条NVLink链路和 300GB/s 的总带宽,而 GP100 支持 4 条 NVLink 链路和 160GB/s 的总带宽。NVLink现在支持基于IBM Power 9 CPU的服务器的CPU控制和缓存一致性功能。新NVIDIA DGX-1搭载V100 AI超级计算机,使用NVLink为超快深度学习训练提供更大的可扩展性。

2.3 HBM2 Memory: Faster, Higher Efficiency
Volta的高度 tuned 的16GB HBM2内存子系统提供 900GB/s 的峰值内存带宽。三星新一代HBM2内存和Volta新一代内存控制器的结合,提供了比Pascal GP100高出1.5倍的内存带宽,在许多工作负载下,最高可达95%的内存带宽利用率

2.4 Volta Multi-Process Service
Volta MPS (Volta Multi-Process Service)是Volta GV100架构的新特性,提供CUDA MPS服务器关键部件的硬件加速功能,使共享GPU的多个计算应用能够提高性能、隔离和服务质量。Volta MPS还将MPS客户端的最大数量从16个增加到3倍
Pascla to 48 on Volta.

2.5 Enhanced Unified Memory and Address Translation Services
GV100统一内存技术包括新的访问计数器,允许更准确地将内存页迁移到最频繁访问它们的处理器,提高了处理器之间共享内存范围的效率。在IBM Power平台上,这是新的地址转换服务(ATS)支持允许GPU直接访问CPU的页表。

2.6 Maximum Performance and Maximum Efficiency Modes
在最大性能模式下,Tesla V100加速器将工作到其TDP
(Thermal Design Power)水平300 W,以加快应用程序,需要最快的计算速度和最高的数据吞吐量。最高效率模式允许数据中心管理人员调整 TeslaV100加速器的功率使用,以达到最佳的每瓦性能。在一个机架中,所有gpu都可以设置不超过功耗上限,从而大大降低功耗,同时仍然可以获得优异的机架性能

2.7 Cooperative Groups and New Cooperative Launch APIs
协作组是cuda9中引入的一种新的编程模型,用于组织通信线程组。协作组允许开发人员表达线程通信的粒度,帮助他们表达更丰富、更高效的并行分解。Kepler此后,所有NVIDIA gpu都支持基本协作组功能. Pascal和Volta支持新的协作启动api,支持CUDA线程块之间的同步。Volta增加了对新的同步模式的支持。

2.8 Volta Optimized Software
新版本的深度学习框架,如Caffe2, MXNet, CNTK, TensorFlow等,利用Volta的性能,提供更快的训练时间和更高的多节点训练性能。Volta优化版本的GPU加速库,如cuDNN, cuBLAS和TensorRT利用Volta GV100架构的新功能,为深度学习推理和High提供更高的高性能计算(HPC)应用。NVIDIA CUDA Toolkit 9.0版本包括新的api和对Volta特性的支持,以提供更简单的编程

EXTREME PERFORMANCE FOR AI AND HPC

3. NVIDIA GPUs – The Fastest and Most Flexible Deep Learning Platform

4. GV100 GPU Hardware Architecture In-Depth

5. GV100 CUDA Hardware and Software Architecture Advances

INDEPENDENT THREAD SCHEDULING


Volta开始每个thread有自己独立的PC和栈管理


AI算力基础 -- Nvidia TESLA V100 GPU相关推荐

  1. “宇宙最强”GPU —— NVIDIA Tesla V100 面向开发者开放试用!

    加速科学发现.可视化大数据以供获取见解,以及为消费者提供基于 AI 的智能服务,这些都是研究人员和工程师们的日常挑战.解决这些挑战需要更为复杂且精准的模拟.对于大数据的强大处理能力.或是训练和运行复杂 ...

  2. 高性能v100 gpu服务器,TESLA V100 GPU 加速性能指南

    TESLA V100 GPU加速性能指南 现代高性能计算(HPC)数据中心是解决全球一些重大科学和工程挑战的关键.NVIDIA Tesla 加速计算平台让这些现代数据中心能够使用行业领先的应用程序加速 ...

  3. Hands-on with an 8x NVIDIA Tesla V100 SXM3 Server with NVSwitch

    Hands-on with an 8x NVIDIA Tesla V100 SXM3 Server with NVSwitch https://www.servethehome.com/inspur- ...

  4. linux驱动K10运算卡,NVIDIA TESLA K10 GPU 运算卡 K20 C2075 C2050

    测评 数据 FeaturesTesla K10Tesla M2090Tesla M2075Tesla M2070-Q Number and Type of GPU2 Kepler GK104s1 Fe ...

  5. NVIDIA Tesla T4 GPU参数

    以下是通过CUDA例程deviceQuery得到的结果: CUDA Device Query (Runtime API) version (CUDART static linking) Detecte ...

  6. AI算力基础 -- Roofline模型

    Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architect ...

  7. NVIDIA V100 GPU 性能测试数据

    1. 常用2U 服务器配备有8张nvidia tesla  V100 GPU卡,性能测试结果说明: 如果你具有一台服务器,并且购买了超强计算能力的GPU卡,那么恭喜你,可以进行一次关于计算机超万亿次计 ...

  8. NVIDIA Tesla GPU系列P4、T4、P40以及V100显卡性能的对比

    NVIDIA Tesla GPU系列P4.T4.P40以及V100显卡性能的对比 NVIDIA Tesla系列GPUP4.T4.P40以及V100性能规格参数对比表. 腾讯云提供基于NVIDIA Te ...

  9. 服务器gpu卡型号V100,NVIDIA GPU服务器升级:16块450W Tesla V100

    原标题:NVIDIA GPU服务器升级:16块450W Tesla V100 NVIDIA今天发布了升级版的GPU计算服务器"DGX-2H",和上代DGX-2一样配备多达16颗Te ...

最新文章

  1. PHP关于进程池的优化
  2. 使用fastjson 获取json字符串中的数组,再转化为java集合对象
  3. Select显示多级分类列表
  4. [译]Windows 服务用户帐户
  5. 类加载器的理解——基于Launcher类
  6. Qt SQL 学习笔记二:qt建立数据库,创建和操纵表
  7. 毛星云opencv入门图像模糊blur代码
  8. 什么是PLC软元件和软继电器
  9. CDN加速技术可以解决的问题——诺必达云服务
  10. An invalid domain [] was specified for this cookie问题解决
  11. 太厉害了,终于有人能把Ansible讲的明明白白了,建议收藏
  12. 机器学习——DEAP数据集
  13. 【LeetCode刷题笔记-39 714.买卖股票的最佳时机(含手续费)】
  14. [go基础] go基础之字符串中查找汉字数量
  15. 【传感器模块】 HC-SR501 人体红外感应模块 热释电 红外传感器
  16. html字两边的横线_css实现中间文字,两边横线效果
  17. 汇编语言——跳转指令: JMP、JECXZ、JA、JB、JG、JL、JE、JZ、JS、JC、JO、JP
  18. 从一线码农到阿里技术合伙人 P11的少林扫地僧多隆,人家牛逼是种习惯
  19. 《数据库原理及应用教程》考试系统
  20. 股指期货风险管理实证研究——以2015年股灾为例实证分析/VaR/EViews

热门文章

  1. This is probably not a problem with npm. There is likely additional logging output above. 报错解决思路
  2. mysql 去除字段后面0 的函数
  3. Win10+940MX显卡配置PyTorch1.0.0的痛苦经历
  4. 2017杭电ACM集训队单人排位赛 - 2 饶学妹的比赛
  5. [CSP-S模拟测试]:养花(分块)
  6. woddy 3.0笔记本安装经历(下)
  7. Linux FTP配置匿名用户访问
  8. C# Quartz作业调度配置
  9. Spring Cloud Sleuth 链路追踪
  10. Windows无界面开机自启