NVIDIA Tensor Cores解析

高性能计算机和人工智能前所未有的加速

Tensor Cores支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度。最新一代将这些加速功能扩展到各种工作负载。NVIDIA Tensor内核为所有工作负载提供了新的能力,从革命性的新精度Tensor Float 32(TF32)人工智能训练中的10倍加速到浮点64(FP64)高性能计算的2.5倍加速。

Revolutionary AI Training

当人工智能模型面临更高层次的挑战时,如精确的对话人工智能和深度推荐系统,它们的复杂性继续爆炸。像威震天这样的对话人工智能模型比像ResNet-50这样的图像分类模型大数百倍,也更复杂。以FP32精度训练这些大型模型可能需要几天甚至几周的时间。NVIDIA GPU中的张量磁芯提供了一个数量级的更高性能,降低了TF32和FP16等精度。并通过NVIDIA CUDA-X在本机框架中直接支持™
库中,实现是自动的,在保持准确性的同时,大大缩短了训练的收敛时间。

Breakthrough AI Inference

一个好的人工智能推理加速器不仅要有很好的性能,还要有多功能性来加速不同的神经网络,同时还要有可编程性,使开发人员能够构建新的神经网络。高吞吐量的低延迟同时最大化利用率是可靠部署推理的最重要性能要求。NVIDIA Tensor Cores提供全系列精度——TF32、bfloat16、FP16、INT8和INT4,提供无与伦比的多功能性和性能。

Advanced HPC

高性能混凝土是现代科学的一个基本支柱。为了揭示下一代的发现,科学家们利用模拟来更好地理解药物发现的复杂分子、潜在能源的物理学和大气数据,以便更好地预测和准备极端天气模式。NVIDIA Tensor内核提供了包括FP64在内的全方位精度,以加速所需的最高精度的科学计算。

NVIDIA HPC SDK是一套综合的编译器、库和工具,用于为NVIDIA平台开发HPC应用程序。

现代应用的加速

CUDA-X AI和CUDA-X HPC库与NVIDIA
Tensor Core gpu无缝协作,加速跨多个域应用程序的开发和部署。

现代人工智能有可能扰乱许多行业,但如何利用它的力量是一个挑战。开发人工智能应用程序需要许多步骤:

数据处理、特征工程、机器学习、验证和部署,每一步都涉及处理大量数据和执行大量计算操作。CUDA-X人工智能提供了克服这一挑战所需的工具和技术。

A100 Tensor Cores

第三代

NVIDIA Tensor核心技术为人工智能带来了惊人的加速,将训练时间从几周缩短到几小时,并为推理提供了巨大的加速。NVIDIA安培体系结构提供了巨大的性能提升,并提供了新的精度,以覆盖研究人员所需的全谱-TF32、FP64、FP16、INT8和INT4加速和简化人工智能采用,并将NVIDIATensor Cores的功率扩展到高性能计算机。

Tensor Float 32

随着人工智能网络和数据集继续呈指数级增长,它们的计算需求也同样增长。较低精度的数学运算带来了巨大的性能加速,但它们历来需要一些代码更改。A100带来了一种新的精度,TF32,它的工作原理和FP32一样,同时为人工智能提供高达20倍的加速,而不需要任何代码更改。

图灵Tensor Cores

第二代

英伟达图灵™
Tensor Cores心技术的特点是多精度计算,有效的人工智能推理。图灵Tensor Cores为深度学习训练和推理提供了一系列精度,从FP32到FP16到INT8,以及INT4,在性能上超过NVIDIA Pascal™ GPU。

Volta Tensor Cores

第一代

专为深度学习而设计的NVIDIA Volta第一代Tensor Cores™
在FP16和FP32中使用混合精度矩阵乘法提供开创性的性能,高达12倍的高峰值teraFLOPS(TFLOPS)用于训练,6倍的高峰值TFLOPS用于NVIDIA Pascal上的推理。这一关键能力使Volta能够在Pascal上提供3倍的训练和推理性能加速。

NVIDIA赢得MLPerf推理基准

NVIDIA在新的MLPerf基准上发布了最快的结果,该基准测试了数据中心和边缘的人工智能推理工作负载的性能。新的业绩是在该公司今年早些时候公布的MLPerf基准业绩同样强劲的情况下发布的。

MLPerf的五个推理基准——应用于一系列的形状因子和四个推理场景——涵盖了诸如图像分类、对象检测和翻译等已建立的人工智能应用。

用例和基准是:

NVIDIA在以数据中心为中心的场景(服务器和脱机)的所有五个基准测试中都名列前茅,其中Turing gpu为每个处理器提供了商用项目中最高的性能。Xavier在以边缘为中心的场景(单流和多流)下提供了商用边缘和移动SOC中最高的性能。

NVIDIA的所有MLPerf结果都是使用NVIDIA
TensorRT 6高性能深度学习推理软件实现的,该软件可以方便地优化和部署从数据中心到边缘的人工智能应用程序。新的TensorRT优化也可以作为GitHub存储库中的开放源代码使用。请参阅此开发人员博客中的完整结果和基准测试详细信息。

除了是唯一一家提交了MLPerf Inference v0.5所有五个基准测试的公司外,NVIDIA还在开放部门提交了ResNet-50v1.5的INT4实现。这个实现带来了59%的吞吐量增长,准确率损失小于1.1%。在这个博客中,我们将带您简要介绍我们的INT4提交,它来自NVIDIA早期的研究,用于评估图灵上INT4推理的性能和准确度。在此了解有关INT4精度的更多信息。

NVIDIA在扩展其推理平台的同时,今天还推出了Jetson
Xavier NX,这是世界上最小、最强大的用于边缘机器人和嵌入式计算设备的AI超级计算机。

Jetson-Xavier NX模块与Jetson-Nano引脚兼容,基于NVIDIA的Xavier SoC的低功耗版本,该版本在边缘SoC中引领了最近的MLPerf推断0.5结果,为在边缘部署高要求的基于AI的工作负载提供了更高的性能,这些工作负载可能受到尺寸、重量、功率和成本等因素的限制。在此处了解有关新系统的更多信息,并了解如何在5个类别中的4个类别中占据榜首。

最强大的端到端人工智能和高性能数据中心平台

Tensor核心是完整NVIDIA数据中心解决方案的基本组成部分,该解决方案集成了NGC的硬件、网络、软件、库以及优化的AI模型和应用程序™. 作为最强大的端到端人工智能和高性能计算机平台,它允许研究人员提供真实的结果,并将解决方案大规模部署到生产中。

NVIDIA Tensor Cores解析相关推荐

  1. 用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割

    用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割 Accelerating Medical Image Segmentation with NVIDIA Tensor ...

  2. pycharm运行模型时怎么设置权重?_使用AMP和Tensor Cores得到更快速,更节省内存的PyTorch模型...

    点击上方"AI派",关注公众号,选择加"星标"或"置顶" 导读 只需要添加几行代码,就可以得到更快速,更省显存的PyTorch模型. 你知道 ...

  3. NVIDIA Turing架构解析:追光逐影,成败未定

    雷锋网消息,自NVIDIA的Turing架构问世已经过去了一个多月时间,GeForce RTX 20系列的发布以及实时光线跟踪技术的推出,让NVIDIA将使用多年的"GeForce GTX& ...

  4. Nvidia Tensor Core-MMA PTX编程入门

    1 PTX (Parallel Thread Execution) PTX是什么,Nvidia官方描述为a low-level parallel thread execution virtual ma ...

  5. CUDA 9中张量核(Tensor Cores)编程

    CUDA 9中张量核(Tensor Cores)编程 Programming Tensor Cores in CUDA 9 一.概述 新的Volta GPU架构的一个重要特点是它的Tensor核,使T ...

  6. Nvidia Tensor Core-WMMA API编程入门

    1 WMMA (Warp-level Matrix Multiply Accumulate) API 对于计算能力在7.0及以上的CUDA设备,可以使用CUDA C++ API调用Tensor Cor ...

  7. 在线研讨会 | 多说话人语音融合 - NVIDIA NeMo 代码解析

    多说话人语音融合 - NVIDIA NeMo 代码解析 多说话人语音融合任务是 TTS 语音合成当中的一个子任务,它是指将两个或者多个说话人的声音进行融合,合成出新的语音的过程,而不需要做任何进一步的 ...

  8. NVIDIA专家全面解析Merlin,GPU加速的推荐系统解决方案速速查收

    为拓宽选手们的技术视野,腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖,倾力打造了"技"高一筹系列专题直播.在6月10日的直播中,NVIDIA 亚太 AI 开发者技术解决 ...

  9. NVIDIA DeepStream配置文件解析;摄像头源RTSP拉流源输入,RTSP推流输出

    一.DeepStream配置文件解析 参考:官方文档 DeepStream Reference Application - deepstream-app 1. DeepStream应用程序架构 下图为 ...

最新文章

  1. Cross-validation
  2. Linux(ubuntu)下安装anaconda(64位)并配置jupyter notebook远程访问
  3. ReSimNet: drug response similarity prediction using Siamese neural networks
  4. 天气webservice服务
  5. 关于ipconfig中setclassid的初步认识
  6. oc语言和c语言,C语言及OC语言初期学习心得
  7. FFmpeg基本组成
  8. 数据科学还是计算机科学_您应该拥有数据科学博客的3个原因
  9. php ftp 下载大文件,文件在用php(ftp)下载后损坏[重复]
  10. 【Elasticsearch】消除 Elasticsearch 中的重复文档
  11. C++_引用做函数的返回值_引用的本质---C++语言工作笔记032
  12. 环信php创建群组,【PHP】接入环信创建群组和IM用户
  13. .net 编译、反编译、查壳、脱壳、反混淆工具
  14. 关于C++中常用的对DEBUG_NEW、THIS_FILE重定义的说明
  15. 分页,在第一页不显示上一页或禁止使用上一页
  16. 《Oracle Exadata云服务官方指南》之 Oracle Database Exadata 云服务
  17. 人工智能各层思维导图
  18. mysql数据库的单引号用法_[数据库]mysql单引号和双引号的用法
  19. ql的python学习之路-day5
  20. 如何设置Google浏览器支持跨域

热门文章

  1. 2022-2028年全球与中国乳胶丝市场研究及前瞻分析报告
  2. etcd 笔记(07)— 键值对读写操作过程
  3. 利用牛顿法求平方根-Go语言实现
  4. 【Sql Server】DateBase-事务
  5. listary 指定目录搜索_everything
  6. CPU,GPU,Memory调度
  7. 手机与Camera CCM技术发展趋势
  8. Lumen框架多数据库连接配置方法
  9. centos7 安装 Mysql 5.7.28,详细完整教程
  10. [JAVA EE] Thymeleaf 高级用法:模板布局,带参数的引用片段,表单验证,常用校验注解