双精度张量内核加快了高性能计算
双精度张量内核加快了高性能计算
通过NVIDIA Ampere架构,仿真和迭代求解器可将FP64数学提高多达2.5倍。
模拟可以帮助了解黑洞的奥秘,并了解冠状病毒上的蛋白质尖峰如何导致COVID-19。还可以让设计师创建从时尚汽车到喷气发动机的所有东西。
但是仿真也是地球上最苛刻的计算机应用程序之一,因为需要大量最先进的数学。
通过使用称为FP64的双精度浮点格式的计算,仿真使数值模型变得可视化。格式中的每个数字在计算机中占用64位,使其成为当今GPU支持的多种数学格式中计算强度最高的一种。
NVIDIA Ampere架构定义了第三代Tensor内核,这是努力加速高性能计算的又一大举措,与上一代GPU相比,它们可将FP64数学运算速度提高2.5倍。
这意味着在最新的A100 GPU上运行时,可以在几个小时内查看使研究人员和设计师整夜等待的模拟。
科学使AI陷入循环
速度的提高打开了将AI与仿真和实验相结合的大门,创建了一个正反馈回路,从而节省了时间。
首先,模拟会创建训练AI模型的数据集。然后,AI和仿真模型一起运行,相互取长补短,直到AI模型准备好通过推理提供实时结果。训练有素的AI模型还可以从实验或传感器中获取数据,从而进一步完善其洞察力。
使用此技术,AI可以定义一些感兴趣的区域以进行高分辨率仿真。通过缩小范围,AI可以将数千个费时的仿真需求减少几个数量级。并且需要运行的仿真在A100 GPU上的运行速度将提高2.5倍。
视频播放器
借助FP64和其它新功能,基于NVIDIA Ampere架构的A100 GPU成为了灵活的平台,可用于仿真以及AI推理和训练-现代HPC的整个工作流程。该功能将推动开发人员将仿真代码迁移到A100。
用户可以调用新的CUDA-X库来访问A100中的FP64加速。这些GPU内置了支持DMMA的第三代Tensor内核,DMMA是一种新模式,可加速双精度矩阵乘法累加运算。
加速矩阵数学
单个DMMA作业使用一条计算机指令来代替八条传统的FP64指令。结果,A100的FP64数学运算速度比其它芯片更快,工作量更少,不仅节省了时间和功耗,而且还节省了宝贵的内存和I / O带宽。
将此新功能称为双精度张量核心。它为HPC应用程序提供了Tensor Core的功能,以完整的FP64精度加速了矩阵数学运算。
除了模拟之外,称为迭代求解器的HPC应用程序(具有重复矩阵数学计算的算法)将受益于此新功能。这些应用程序包括地球科学,流体动力学,医疗保健,材料科学和核能以及石油和天然气勘探领域的广泛工作。
为了服务于世界上最苛刻的应用程序,双精度Tensor内核进入了我们制造的最大,功能最强大的GPU中。与地球上的任何GPU相比,A100还拥有更多的内存和带宽。
NVIDIA Ampere架构中的第三代Tensor Core比以前的版本更强大。它们支持更大的矩阵尺寸-8x8x4,而Volta则为4x4x4,从而使用户能够解决更棘手的问题。
这就是为什么总共有432个Tensor Core的A100可以提供高达19.5 FP64 TFLOPS的原因,是Volta V100性能的两倍以上。
双精度张量内核加快了高性能计算相关推荐
- NVIDIA深度架构
NVIDIA深度架构 本文介绍A100 GPU,NVIDIA Ampere架构GPU的重要新功能. 现代云数据中心中运行的计算密集型应用程序的多样性推动了NVIDIA GPU加速的云计算的爆炸式增长. ...
- 英伟达推出新款“煤气灶”Titan RTX,售价近2万,并开源PhysX SDK
晓查 郭一璞 安妮 乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 刚刚,英伟达发布Titan RTX. 和传言一样,Titan RTX配备72 颗Turing RT核心.4608颗CUD ...
- A100 GPU硬件架构
A100 GPU硬件架构 NVIDIA GA100 GPU由多个GPU处理群集(GPC),纹理处理群集(TPC),流式多处理器(SM)和HBM2内存控制器组成. GA100 GPU的完整实现包括以下单 ...
- NVIDIA Turing Architecture架构设计(上)
NVIDIA Turing Architecture架构设计(上) 在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下, NVIDIA ®已经将 GPU 发展成为许多计算密集型应用的世界 ...
- CUDA 11功能展示
CUDA 11功能展示 CUDA 11 Features Revealed 新的NVIDIA A100 GPU基于NVIDIA安培GPU架构,实现了加速计算的最大一代飞跃.A100 GPU具有革命性的 ...
- 姑苏城内的老黄,金鸡湖边的GTC,你get到几个点?
老黄来了! 这次化身"皮衣英雄"站在了苏州金鸡湖国际会议中心并不大但却很炫酷的舞台上. 尽管作为迷弟迷妹大军中的一员,这次仍旧没能得到黄教主的亲笔签名,连乔装电梯内偶遇并成功拍照的 ...
- 亚马逊云科技2022年6月新服务新功能回顾
前言 从计算.存储和数据库等基础设施技术,到机器学习.人工智能.数据湖和分析以及物联网等新兴技术,亚马逊云科技为客户提供多样的服务及功能.借助亚马逊云科技,您可以在种类繁多的前沿技术中选择适合您工作负 ...
- Tensorflow Lite从入门到精通
TensorFlow Lite 是 TensorFlow 在移动和 IoT 等边缘设备端的解决方案,提供了 Java.Python 和 C++ API 库,可以运行在 Android.iOS 和 Ra ...
- 如何加速AI落地?第四范式提供“开箱即用”集成系统
导语: AI是企业深入推进数字化和智能化转型所必须导入或采用的技术,但其过高的门槛让众多缺乏技术和人才储备的企业望而却步.第四范式从这一痛点出发,基于英特尔的至强®可扩展处理器.傲腾™ 持久内存.FG ...
最新文章
- Found option without preceding group in config file E:\mysql\mysql-5.7.23-winx64\my.ini at line 1!
- import javax.servlet.http.HttpServletRequest 提示错误
- c++两个vector合并_这才是真正的 Git——分支合并
- Flutter 36: 图解自定义 View 之 Canvas (三)
- editplus查找文件中的字符串
- 使用 IntraWeb (26) - 基本控件之 TIWMenu
- hive -e执行命令报错
- vue、react隐式实例化
- 【SDE】随机微分方程(1)
- 继电反馈法自整定_PID控制及整定算法
- 360 error.html,360浏览器出错了怎么办
- Kubernetes 学习总结(29)—— 使用 kubeadm 部署 Kubernetes 1.24 详细步骤总结
- C判断tic tac toe输赢
- 深入浅出的解释什么是IP地址、子网掩码、端口号、DNS、网关(初学者一定要看看)
- Eclipse创建java Web项目工程
- 智能洗拖地机哪个品牌好一点、拖洗地机品牌排行榜前十名
- java 手机 连接电脑,非智能手机怎么连接电脑
- 有效提高执行力,你需要这几个技巧
- dnf剑魂buff等级上限_DNF:半年前没人看得上,如今被开发成T0,这神话终于翻身了...
- 量化分析师的Python日记【Q Quant 之初出江湖】