英伟达发布全球最大GPU:性能提升10倍,售价250万
夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI
英伟达的新杀器又来了。
刚刚,在GTC 2018大会上,黄仁勋发布全球最大GPU。
他说的是DGX-2。
DGX-2能够实现每秒2千万亿次浮点运算(2 PFLOPS),性能比去年9月推出的DGX-1性能提高了10倍,售价39.9万美元(人民币250万元)。
这次的GTC 2018大会在美国加州圣何塞举行,黄仁勋照例身着皮衣登台演讲。(官方还特别提示:这次是一件全新的皮衣)
而老黄这次的演讲主题,是四个Amazing:amazing graphics、amazing science、amazing AI、amazing robots。
首先,从不可思议的图像开始。
在这个环节里,黄仁勋介绍了英伟达在图像实时光线追踪处理方面的最新进展,展示了细腻的反射效果。
这项技术,称为RTX。它面向图形领域,借助深度学习技术,实现了实时光线追踪。
然后黄仁勋发布了首款基于Volta架构的工作站GPU:Quadro GV100。
它支持英伟达RTX技术,支持NVLink 2,32GB容量HBM2显存。两个GV100相连,可以提供10000多个CUDA核心,236 teraflops的TensorFlow核心。
说着说着,老黄又开始讲这句:买得越多,省得越多。(The more GPUs to buy, the more money you save.)
“来GTC,学习如何节省百万美元。”老黄发出诚恳的建议。
然后进入不可思议的科学环节。
我们正处在GPU计算的关键点,黄仁勋表示。这部分他还介绍TESLA V100等产品的多快好省,也谈到一些GPU在计算和医疗影像方面的贡献。
比如医疗影像超级计算机CLARA。
深度学习给医疗影响的识别带来了诸多变革,但投入到实际使用中却很难。医院用着十几年前生产的超声仪,黑白渣画质成了医疗进步的阻碍。
要等所有医院升级设备,可能要花上30年。
CLARA是一款医疗影像的超级计算机,让医院可以升级那些已有的系统。医生可以仍然用原有的超声、CT等设备,然后将图像输入超级计算机,推理出更清晰的图像。
在这个项目上,英伟达联合了一大群医疗行业的合作伙伴:
以及在这个环节,黄仁勋又引导全场跟他念:买得越多,省得越多。
来到不可思议的AI环节。
这个环节的主题是“全球最大的GPU”。
首先,英伟达把Volta V100m每张卡的内存扩大到32GB。适用于内存密集型的深度学习和高性能计算,还能将内存受限的HPC应用性能提升高达50%。
其次,是全新发布的互联结构NVSwitch,带宽比最好的PCIe交换机高出5倍,最高支持16个Tesla V100同时以2.4TB/秒的速度进行通信。
最后,一个全新的DGX服务器发布了。
黄仁勋说这个现在是全球最大的GPU了:新的DGX-2,包括20亿个晶体管,12个交换机。每个GPU都可以通过光纤交换机互相通信,比PCIe接口快20倍。
DGX-2的算力可达2千万亿次浮点运算,功耗10千瓦。这台机器内部是NVLink连接的两组Tesla V100阵列。
与6个月前发布的DGX-1相比,DGX-2提速10倍。
五年前,在两块GTX 580上进行Alexnet训练耗时六天,现在使用DGX-2,可以在18分钟以内完成。
这款产品将于今年三季度发售,每台价格39.9万美元(人民币250万元)。
DGX-2具有300台服务器的深度学习处理能力,占用15个数据中心机架空间,而体积则缩小60倍,能效提升18倍。
此外,英伟达还更新了CUDA、TensorRT、NCCL、cuDNN等深度学习和HPC软件堆栈。
新版的TensorRT能快速优化、验证和部署在超大规模的数据中心,针对更广泛的应用加速深度学习推理。它最高可以 将深度学习推理的速度加快190倍,降低70%的数据中心成本。
TensorRT 4还集成到了谷歌TensorFlow 1.7版本中,更易于使用。
另外,NVIDIA还宣布和ARM合作,将英伟达深度学习加速器架构集成到Arm的Project Trillium上,在手机、智能家居等设备上实现深度学习推理。
以及英伟达GPU现在支持Kubernetes了。这是一个基于容器技术的分布式架构方案。这个技术让英伟达的GPU进一步加速。
还有一事,英伟达骄傲的宣布,TITAN V仍然断货中。
最后是不可思议的机器人环节。
发布了机器人开发工具包Issac SDK之后,话题转向了自动驾驶。
“我们正试图从头到尾了解这个系统,这其中包含四个最重要的方面:数据收集、模型训练、模拟和驾驶。”老黄说,这个了解过程,大约花了5到7年。
老黄在现场,又展示了一把云代驾。
他把VR和自动驾驶结合起来。通过一个VR眼镜和方向盘,就能启动自动驾驶汽车。
云代驾所用的平台,是新鲜发布的NVIDIA DRIVETM Constellation,基于两台服务器。
第一台服务器运行NVIDIA DRIVE Sim 软件,用以模拟自动驾驶汽车的传感器,如摄像头、激光雷达和雷达。第二台服务器搭载NVIDIA DRIVE PegasusTM AI汽车计算平台,可运行完整的自动驾驶汽车软件堆栈,并能够处理模拟数据,这些模拟数据如同来自路面行驶汽车上的传感器。
老黄又详细介绍了英伟达的感知基础架构。
每辆汽车都在收集PB级的数据,每个月有1500人大概标注100万件物品。
老黄表示,英伟达并没有试图建立一个基于软件定义的计算机的自主车辆系统,确切的说是在研究一个架构。
英伟达以Drive PX Parker单芯片架构为基础创建DRIVE Xavier。这是一个四芯片系统,包含两个Xaviers和两个Voltas。
这台耗能300瓦的电脑正在用于机器人汽车,将于今年晚些时候投入生产。
对了,这项技术英伟达拥有全部产权。
BTW,英伟达今天还宣布暂停了自动驾驶测试。
可能是受此影响,发布会一开始,英伟达股价就同步下跌,至发布会结束,英伟达股价累积下跌6.64%。
— 完 —
活动推荐
△ 点击图片或阅读原文
即可获取更多详情
联想高校AI精英挑战赛,覆盖全国28个省份、8大赛区和260所高校,经过在中科大、华中科技大学、清华大学、上海交通大学等8所AI领域具有顶尖优势的理工科高校的半决赛路演,产生最终入围总决赛的十支参赛队伍,并将于3月29日在北京中国科学院计算技术研究所迎来全国总决赛。
加入社群
量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
英伟达发布全球最大GPU:性能提升10倍,售价250万相关推荐
- 英伟达发布全球唯一千万亿级集成型 AI 工作组服务器
IT之家 11 月 17 日消息 今天,英伟达发布全球唯一的千万亿级工作组服务器 NVIDIA DGX Station A100,配备四个 NVIDIA A100 GPU,具有高达 320GB 的 G ...
- 每日新闻丨英伟达发布全球最小边缘AI超级计算机;IBM开发出全球首个金融服务就绪公有云...
趋势洞察 百度CTO王海峰:人工智能已经进入到工业大生产阶段 百度首席技术官(CTO)王海峰在第二届中国国际进口博览会上表示,人工智能已经不仅仅是新的生产力,已经进入到工业大生产阶段.他介绍,百度人工 ...
- AI一分钟 | 英伟达发布Tesla T4 GPU新品;腾讯发布《2018 年全球自动驾驶法律政策研究报告》...
▌英伟达宣布 Tesla T4 GPU 新品:基于图灵架构,加速 AI 运算 近日,英伟达发布了一款专为 AI 推理工作而设计的显卡,它就是可以加速语音.视频.搜索引擎.图像神经网络的 Tesla T ...
- 英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM...
Pine 发自 凹非寺 量子位 | 公众号 QbitAI "AI的iPhone时刻已至",英伟达或成最大赢家. 在GTC2023大会上,黄仁勋接连放出大招: 不仅发布了ChatGP ...
- 英伟达P100 vs V100 GPU性能
在选择计算资源时总是纠结不知道哪种显卡好用? 请看下面一组对比: 数据来源: link. 实测效果:训练深层神经网络的时候,V100比P100快大约2倍. 综上,V100算力更强劲!预算够的话就选V1 ...
- NVIDIA 英伟达发布H100 GPU,水冷服务器适配在路上
导语 1.GPU的价值不止体现在深度学习,在高性能计算.人工智能.生物信息.分子模拟.计算化学.材料力学.系统仿真.流体力学.机械设计.生物制药.航空动力.地质勘探.气候模拟等领域,算法越来越复杂,需 ...
- 英伟达发布“空气CPU”,Arm架构专为AI而生,性能超x86十倍,与自家GPU更搭
梦晨 晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 30系显卡买不到?英伟达老黄刚刚又发布一款"空气CPU". 不过就算你抢不到也没关系,因为这款CPU专门为服务器 ...
- AI算力霸主诞生!英伟达发布首款安培架构GPU,性能提升20倍
来源:雷锋网 由于疫情缘故,本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布. 5月15日,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培, ...
- linux 七代 显卡,性能显著提升:NVIDIA 英伟达 发布 第七代 GPU架构 Volta
性能显著提升:NVIDIA 英伟达 发布 第七代 GPU架构 Volta 2017-05-11 18:31:54 35点赞 42收藏 87评论 Microsoft(微软)Build2017开发者大会正 ...
最新文章
- 与现代传感器的接口:轮询ADC驱动程序
- C# 使用HttpWebRequest提交ASP.NET表单并保持Session和Cookie
- 如何养出一个三十几亿身家的儿子
- Python将classification_report的结论转化为字典(dict)形式并提取模型的灵敏度(sensitivity)、特异度(specificity)、PPV和NPV指标、混淆矩阵图
- golang odbc mysql_golang使用odbc链接hive
- spring拦截器-过滤器的区别
- Java游戏用户登录注册_Java实现多用户注册登录的幸运抽奖
- ofo 彻底凉凉。。。
- 单循环赛 贝格尔编排法实现
- 在智能家居音箱领域上的音频功放芯片IC
- 7-37 模拟EXCEL排序 (25 分)
- spleeter音乐人声分离、5种架子鼓钢琴声音分离的高质量模型运行超详细教程windows+ubuntu18.04
- html中iframe显示多个子页面
- python为什么有gil锁_为什么目前python3的全局锁gil性能远逊于python2
- MVP Open Day手记——场上场下同样精彩
- UE4 VR手柄移动转盘
- 使用NPOI创建行折叠效果的Excel文件
- vue 中遍历数组对象 存到一个新数组里
- Property or method “item“ is not defined on the instance but referenced during render.
- linux mysql 文件夹权限_找到linux文件夹
热门文章
- 引入神经网络 API 1.1、支持全面屏,Android 9.0 来了!
- 百度、支付宝、今日头条先后被约谈,下一个会是谁?
- 第 17 章 命令模式
- oracle 定位行锁,oracle 的for update行锁语法
- php5.6获取文件名,PHP 5.6:headers_sent间歇性地返回true,空文件名和第0行
- keepalive+nginx实现负载均衡高可用_高可用、负载均衡 集群部署方案:Keepalived + Nginx + Tomcat...
- dp线和hdmi区别_各类视频线有什么区别?应该怎么选呢?
- swing的jlist的值怎么获取_彻底解决安卓/IOS获取蓝牙ID不一致的问题
- 实现树状图_举个栗子!Tableau 技巧(132):用参数操作实现数据下钻
- vscode 网页版