双精度张量内核加快了高性能计算
通过NVIDIA Ampere架构,仿真和迭代求解器可将FP64数学提高多达2.5倍。

模拟可以帮助了解黑洞的奥秘,并了解冠状病毒上的蛋白质尖峰如何导致COVID-19。还可以让设计师创建从时尚汽车到喷气发动机的所有东西。
但是仿真也是地球上最苛刻的计算机应用程序之一,因为需要大量最先进的数学。
通过使用称为FP64的双精度浮点格式的计算,仿真使数值模型变得可视化。格式中的每个数字在计算机中占用64位,使其成为当今GPU支持的多种数学格式中计算强度最高的一种。
NVIDIA Ampere架构定义了第三代Tensor内核,这是努力加速高性能计算的又一大举措,与上一代GPU相比,它们可将FP64数学运算速度提高2.5倍。
这意味着在最新的A100 GPU上运行时,可以在几个小时内查看使研究人员和设计师整夜等待的模拟。
科学使AI陷入循环
速度的提高打开了将AI与仿真和实验相结合的大门,创建了一个正反馈回路,从而节省了时间。
首先,模拟会创建训练AI模型的数据集。然后,AI和仿真模型一起运行,相互取长补短,直到AI模型准备好通过推理提供实时结果。训练有素的AI模型还可以从实验或传感器中获取数据,从而进一步完善其洞察力。
使用此技术,AI可以定义一些感兴趣的区域以进行高分辨率仿真。通过缩小范围,AI可以将数千个费时的仿真需求减少几个数量级。并且需要运行的仿真在A100 GPU上的运行速度将提高2.5倍。
视频播放器
借助FP64和其它新功能,基于NVIDIA Ampere架构的A100 GPU成为了灵活的平台,可用于仿真以及AI推理和训练-现代HPC的整个工作流程。该功能将推动开发人员将仿真代码迁移到A100。
用户可以调用新的CUDA-X库来访问A100中的FP64加速。这些GPU内置了支持DMMA的第三代Tensor内核,DMMA是一种新模式,可加速双精度矩阵乘法累加运算。
加速矩阵数学
单个DMMA作业使用一条计算机指令来代替八条传统的FP64指令。结果,A100的FP64数学运算速度比其它芯片更快,工作量更少,不仅节省了时间和功耗,而且还节省了宝贵的内存和I / O带宽。
将此新功能称为双精度张量核心。它为HPC应用程序提供了Tensor Core的功能,以完整的FP64精度加速了矩阵数学运算。
除了模拟之外,称为迭代求解器的HPC应用程序(具有重复矩阵数学计算的算法)将受益于此新功能。这些应用程序包括地球科学,流体动力学,医疗保健,材料科学和核能以及石油和天然气勘探领域的广泛工作。
为了服务于世界上最苛刻的应用程序,双精度Tensor内核进入了我们制造的最大,功能最强大的GPU中。与地球上的任何GPU相比,A100还拥有更多的内存和带宽。
NVIDIA Ampere架构中的第三代Tensor Core比以前的版本更强大。它们支持更大的矩阵尺寸-8x8x4,而Volta则为4x4x4,从而使用户能够解决更棘手的问题。
这就是为什么总共有432个Tensor Core的A100可以提供高达19.5 FP64 TFLOPS的原因,是Volta V100性能的两倍以上。

双精度张量内核加快了高性能计算相关推荐

  1. NVIDIA深度架构

    NVIDIA深度架构 本文介绍A100 GPU,NVIDIA Ampere架构GPU的重要新功能. 现代云数据中心中运行的计算密集型应用程序的多样性推动了NVIDIA GPU加速的云计算的爆炸式增长. ...

  2. 英伟达推出新款“煤气灶”Titan RTX,售价近2万,并开源PhysX SDK

    晓查 郭一璞 安妮 乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 刚刚,英伟达发布Titan RTX. 和传言一样,Titan RTX配备72 颗Turing RT核心.4608颗CUD ...

  3. A100 GPU硬件架构

    A100 GPU硬件架构 NVIDIA GA100 GPU由多个GPU处理群集(GPC),纹理处理群集(TPC),流式多处理器(SM)和HBM2内存控制器组成. GA100 GPU的完整实现包括以下单 ...

  4. NVIDIA Turing Architecture架构设计(上)

    NVIDIA Turing Architecture架构设计(上) 在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下, NVIDIA ®已经将 GPU 发展成为许多计算密集型应用的世界 ...

  5. CUDA 11功能展示

    CUDA 11功能展示 CUDA 11 Features Revealed 新的NVIDIA A100 GPU基于NVIDIA安培GPU架构,实现了加速计算的最大一代飞跃.A100 GPU具有革命性的 ...

  6. 姑苏城内的老黄,金鸡湖边的GTC,你get到几个点?

    老黄来了! 这次化身"皮衣英雄"站在了苏州金鸡湖国际会议中心并不大但却很炫酷的舞台上. 尽管作为迷弟迷妹大军中的一员,这次仍旧没能得到黄教主的亲笔签名,连乔装电梯内偶遇并成功拍照的 ...

  7. 亚马逊云科技2022年6月新服务新功能回顾

    前言 从计算.存储和数据库等基础设施技术,到机器学习.人工智能.数据湖和分析以及物联网等新兴技术,亚马逊云科技为客户提供多样的服务及功能.借助亚马逊云科技,您可以在种类繁多的前沿技术中选择适合您工作负 ...

  8. Tensorflow Lite从入门到精通

    TensorFlow Lite 是 TensorFlow 在移动和 IoT 等边缘设备端的解决方案,提供了 Java.Python 和 C++ API 库,可以运行在 Android.iOS 和 Ra ...

  9. 如何加速AI落地?第四范式提供“开箱即用”集成系统

    导语: AI是企业深入推进数字化和智能化转型所必须导入或采用的技术,但其过高的门槛让众多缺乏技术和人才储备的企业望而却步.第四范式从这一痛点出发,基于英特尔的至强®可扩展处理器.傲腾™ 持久内存.FG ...

最新文章

  1. Found option without preceding group in config file E:\mysql\mysql-5.7.23-winx64\my.ini at line 1!
  2. import javax.servlet.http.HttpServletRequest 提示错误
  3. c++两个vector合并_这才是真正的 Git——分支合并
  4. Flutter 36: 图解自定义 View 之 Canvas (三)
  5. editplus查找文件中的字符串
  6. 使用 IntraWeb (26) - 基本控件之 TIWMenu
  7. hive -e执行命令报错
  8. vue、react隐式实例化
  9. 【SDE】随机微分方程(1)
  10. 继电反馈法自整定_PID控制及整定算法
  11. 360 error.html,360浏览器出错了怎么办
  12. Kubernetes 学习总结(29)—— 使用 kubeadm 部署 Kubernetes 1.24 详细步骤总结
  13. C判断tic tac toe输赢
  14. 深入浅出的解释什么是IP地址、子网掩码、端口号、DNS、网关(初学者一定要看看)
  15. Eclipse创建java Web项目工程
  16. 智能洗拖地机哪个品牌好一点、拖洗地机品牌排行榜前十名
  17. java 手机 连接电脑,非智能手机怎么连接电脑
  18. 有效提高执行力,你需要这几个技巧
  19. dnf剑魂buff等级上限_DNF:半年前没人看得上,如今被开发成T0,这神话终于翻身了...
  20. 量化分析师的Python日记【Q Quant 之初出江湖】

热门文章

  1. 牛年前的一小结——打响本命年的第一枪,继续刷题!
  2. 手把手教你搭建 Git 服务器
  3. jdk12‘javac‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件。
  4. Windows 64位下安装Redis详细教程
  5. Vue登录切换中的问题及解决
  6. LeetCode简单题之将找到的值乘以2
  7. TVM优化GPU机器翻译
  8. NVIDIA深度架构
  9. 扩展LLVM:添加指令、内部函数、类型等
  10. 激光雷达Lidar与毫米波雷达Radar:自动驾驶的利弊