英伟达发布全球最大GPU：性能提升10倍，售价250万

夏乙发自凹非寺
量子位出品 | 公众号 QbitAI

英伟达的新杀器又来了。

刚刚，在GTC 2018大会上，黄仁勋发布全球最大GPU。

他说的是DGX-2。

DGX-2能够实现每秒2千万亿次浮点运算（2 PFLOPS），性能比去年9月推出的DGX-1性能提高了10倍，售价39.9万美元（人民币250万元）。

这次的GTC 2018大会在美国加州圣何塞举行，黄仁勋照例身着皮衣登台演讲。（官方还特别提示：这次是一件全新的皮衣）

而老黄这次的演讲主题，是四个Amazing：amazing graphics、amazing science、amazing AI、amazing robots。

首先，从不可思议的图像开始。

在这个环节里，黄仁勋介绍了英伟达在图像实时光线追踪处理方面的最新进展，展示了细腻的反射效果。

这项技术，称为RTX。它面向图形领域，借助深度学习技术，实现了实时光线追踪。

然后黄仁勋发布了首款基于Volta架构的工作站GPU：Quadro GV100。

它支持英伟达RTX技术，支持NVLink 2，32GB容量HBM2显存。两个GV100相连，可以提供10000多个CUDA核心，236 teraflops的TensorFlow核心。

说着说着，老黄又开始讲这句：买得越多，省得越多。（The more GPUs to buy, the more money you save.）

“来GTC，学习如何节省百万美元。”老黄发出诚恳的建议。

然后进入不可思议的科学环节。

我们正处在GPU计算的关键点，黄仁勋表示。这部分他还介绍TESLA V100等产品的多快好省，也谈到一些GPU在计算和医疗影像方面的贡献。

比如医疗影像超级计算机CLARA。

深度学习给医疗影响的识别带来了诸多变革，但投入到实际使用中却很难。医院用着十几年前生产的超声仪，黑白渣画质成了医疗进步的阻碍。

要等所有医院升级设备，可能要花上30年。

CLARA是一款医疗影像的超级计算机，让医院可以升级那些已有的系统。医生可以仍然用原有的超声、CT等设备，然后将图像输入超级计算机，推理出更清晰的图像。

在这个项目上，英伟达联合了一大群医疗行业的合作伙伴：

以及在这个环节，黄仁勋又引导全场跟他念：买得越多，省得越多。

来到不可思议的AI环节。

这个环节的主题是“全球最大的GPU”。

首先，英伟达把Volta V100m每张卡的内存扩大到32GB。适用于内存密集型的深度学习和高性能计算，还能将内存受限的HPC应用性能提升高达50%。

其次，是全新发布的互联结构NVSwitch，带宽比最好的PCIe交换机高出5倍，最高支持16个Tesla V100同时以2.4TB/秒的速度进行通信。

最后，一个全新的DGX服务器发布了。

黄仁勋说这个现在是全球最大的GPU了：新的DGX-2，包括20亿个晶体管，12个交换机。每个GPU都可以通过光纤交换机互相通信，比PCIe接口快20倍。

DGX-2的算力可达2千万亿次浮点运算，功耗10千瓦。这台机器内部是NVLink连接的两组Tesla V100阵列。

与6个月前发布的DGX-1相比，DGX-2提速10倍。

五年前，在两块GTX 580上进行Alexnet训练耗时六天，现在使用DGX-2，可以在18分钟以内完成。

这款产品将于今年三季度发售，每台价格39.9万美元（人民币250万元）。

DGX-2具有300台服务器的深度学习处理能力，占用15个数据中心机架空间，而体积则缩小60倍，能效提升18倍。

此外，英伟达还更新了CUDA、TensorRT、NCCL、cuDNN等深度学习和HPC软件堆栈。

新版的TensorRT能快速优化、验证和部署在超大规模的数据中心，针对更广泛的应用加速深度学习推理。它最高可以将深度学习推理的速度加快190倍，降低70%的数据中心成本。

TensorRT 4还集成到了谷歌TensorFlow 1.7版本中，更易于使用。

另外，NVIDIA还宣布和ARM合作，将英伟达深度学习加速器架构集成到Arm的Project Trillium上，在手机、智能家居等设备上实现深度学习推理。

以及英伟达GPU现在支持Kubernetes了。这是一个基于容器技术的分布式架构方案。这个技术让英伟达的GPU进一步加速。

还有一事，英伟达骄傲的宣布，TITAN V仍然断货中。

最后是不可思议的机器人环节。

发布了机器人开发工具包Issac SDK之后，话题转向了自动驾驶。

“我们正试图从头到尾了解这个系统，这其中包含四个最重要的方面：数据收集、模型训练、模拟和驾驶。”老黄说，这个了解过程，大约花了5到7年。

老黄在现场，又展示了一把云代驾。

他把VR和自动驾驶结合起来。通过一个VR眼镜和方向盘，就能启动自动驾驶汽车。

云代驾所用的平台，是新鲜发布的NVIDIA DRIVETM Constellation，基于两台服务器。

第一台服务器运行NVIDIA DRIVE Sim 软件，用以模拟自动驾驶汽车的传感器，如摄像头、激光雷达和雷达。第二台服务器搭载NVIDIA DRIVE PegasusTM AI汽车计算平台，可运行完整的自动驾驶汽车软件堆栈，并能够处理模拟数据，这些模拟数据如同来自路面行驶汽车上的传感器。

老黄又详细介绍了英伟达的感知基础架构。

每辆汽车都在收集PB级的数据，每个月有1500人大概标注100万件物品。

老黄表示，英伟达并没有试图建立一个基于软件定义的计算机的自主车辆系统，确切的说是在研究一个架构。

英伟达以Drive PX Parker单芯片架构为基础创建DRIVE Xavier。这是一个四芯片系统，包含两个Xaviers和两个Voltas。

这台耗能300瓦的电脑正在用于机器人汽车，将于今年晚些时候投入生产。

对了，这项技术英伟达拥有全部产权。

BTW，英伟达今天还宣布暂停了自动驾驶测试。

可能是受此影响，发布会一开始，英伟达股价就同步下跌，至发布会结束，英伟达股价累积下跌6.64%。

— 完 —

活动推荐

△ 点击图片或阅读原文

即可获取更多详情

联想高校AI精英挑战赛，覆盖全国28个省份、8大赛区和260所高校，经过在中科大、华中科技大学、清华大学、上海交通大学等8所AI领域具有顶尖优势的理工科高校的半决赛路演，产生最终入围总决赛的十支参赛队伍，并将于3月29日在北京中国科学院计算技术研究所迎来全国总决赛。

加入社群

量子位AI社群15群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot6入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot6，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态