栗子 假装发自 东京 
量子位 报道 | 公众号 QbitAI

 没办法,就是快

快到飞起。

昨天,东京,“教主”黄仁勋发布了一枚新GPU:Tesla T4

按照英伟达的说法,Tesla T4是为推理而生的。

2,560个CUDA,320个张量核心 (Tensor Core) ,推理加速表现如下。

 蓝为CPU,灰为P4,绿为T4

比赛结束,基于帕斯卡架构的P4前辈,在T4面前输得很惨:

语音识别模型DeepSpeech 2上,T4比P4的5倍还要快;

在神经网络翻译模型GNMT上,T4的速度接近P4的4倍

图像识别模型ResNet-50上,T4也接近P4的3倍

注意,在T4诞生之前,P4在深度学习界的地位,也是很崇高的。

Tesla T4快在哪里

算力的增长,图灵架构里的张量核心 (Tensor Core) 是重中之重。

T4的320个张量核心,让数据吞吐量疾速增长,峰值达到260 TOPS (精度INT4) 。

再回头看两年前的P4:

别看速度提升那么多,Tesla T4的功耗 (TDP) 依然停留在谦虚的75瓦

这样的GPU,哪里需要哪里搬,英伟达称之为“宇宙通用推理加速器 (Universal Inference Accelerator) ” 。

把参数排列起来,是不是更燃:

 (后四行)多种精度混合,有助于加速推理

顺便,T4的显存为16GB GDDR6,带宽为320+GB/s

以RTX为名的显卡,不论是专业级的Quadro系列还是游戏显卡Geforce系列,都是在T4的关怀之下,学习光线追踪技巧的。哪里该有光亮,哪里该是阴影,几乎不会错。

TensorRT也更新了

TensorRT 5

加速推理,是一项宏伟的事业,只有GPU是不够的。

和Tesla T4一同发布的,是TensorRT 5推理加速引擎。

这一次更新,主要是为图灵架构提供支持,最高可以达到CPU 40倍的推理速度。

5.0版本中,有8个新的API (精度INT8) ,用于优化推理模型,神经网络翻译也好,推荐系统也好。

现在,TensorRT已经可以和TensorFlow集成,和MatLab集成,ONNX也没放过。

TensorRT推理服务器

除此之外,搭配着引擎食用的TensorRT推理服务器,也一起发布了,做足全套功课。

服务器的作用,是提升GPU的利用率,在一个节点上同时运行不同框架上的多个模型。以下是一个“学跳舞”模型的生成效果举栗。

原来是这样啊:

 举栗:只要跟对师傅,就能学好舞步

现在,推理服务器的测试版本已经提供下载了,大家可以试试看:

https://ngc.nvidia.com/registry/nvidia-inferenceserver

进击的AGX

有些推理,可以永远留在计算机里。

还有一些,就需要接受现实世界的调教了。

 Nvidia Isaac

针对机器人的大脑,以及其他自动化设备的大脑,英伟达也发布了一系列AGX系统

Jetson AGX,Drive AGX以及Clara AGX皆在此列,是基于Xavier芯片打造的开发包 (Devkit) 。

先说Drive AGX,顾名思义,用来开发自动驾驶应用。开发包里有一台计算机,搭载了Drive软件,可以与汽车联动。

这台电脑,只是老黄在发布会上举起的许多重物之中,比较轻的一个。

团队希望,开发者能在这“大脑”里,写出各式各样的脑回路,帮助自动驾驶汽车适应艰险的路况。

Drive AGX开发包,10月1日开始发售。

Jetson AGX与之同理,只是用于工业场景。在人口老龄化形势严峻的日本,工业自动化尤其受到重视。

英伟达说,Jetson AGX是全球第一台为自动化设备定制的计算机。工程机械巨头小松制作所等许多企业已经投入使用了。

Clara AGX是医疗场景下的开发包,但这里没有计算机,只是纯纯的SDK

一句重要的话

如果想要申请谷歌云上的T4早期试用,请在这里填表:

https://docs.google.com/forms/d/1-EuhrG9UZ6yXM9lg6mJ4l8ltq-mklcVo7qbLh7H7zek/viewform?ts=5b98149d&edit_requested=true

加入社群

量子位AI社群28群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

英伟达新GPU发布:快到飞起,快到老黄瞬间学会了跳舞相关推荐

  1. 下一代英伟达H100 GPU发布时,国产芯片能追上吗?

    撰文|吕坚平 继2020年GTC(GPU技术大会)发布A100 GPU,时隔两年,英伟达如所预期在今年(2022年)上GTC公布了媒体形容为"核弹"GPU的H100. 2020年G ...

  2. 英伟达新核弹GPU:4nm制程800亿晶体管,20张即可承载全球互联网流量,全新Hopper架构太炸了...

    丰色 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 他来了他来了,老黄带着英伟达的最新一代GPU来了. 之前大家猜的5nm错了,一手大惊喜,老黄直接上了台积电4nm工艺. 新卡取名H100,采 ...

  3. 英伟达光追支持Java吗,英伟达新显卡驱动发布 GTX 10系显卡现已支持光追

    英伟达新显卡驱动发布 GTX 10系显卡现已支持光追 2019-04-12 08:06:54来源:快科技编辑:血河评论(0) 在上个月的GDC 2019开发者大会上,NVIDIA许下承诺将会让&quo ...

  4. 定义为“AI计算公司”,业绩大幅下滑的英伟达新变量在哪?

     关注ITValue,查看企业级市场最新鲜.最具价值的报道! 1999年,英伟达发明了 GPU,20年后今天,GPU让英伟达攀至行业顶峰. 然而,急速膨胀后潜藏的危机,也增加了这家明星公司的焦虑感. ...

  5. 2080 Ti莫名起火,英伟达承认GPU有缺陷,财报后股价暴跌19%

    岳排槐 安妮 发自 亚龙湾 量子位 出品 | 公众号 QbitAI △ 预购界面 RTX 2080 Ti,英伟达新一代图灵架构GPU,因为独特而鲜明的外观,一直以来被大家戏称为"燃气灶&qu ...

  6. 英伟达新开源GPU加速平台:主打数据科学和机器学习,50倍于CPU

    李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI 如果你是数据工作者,到底对此是爱是恨? 因为这个名为RAPIDS的开源GPU加速平台出现,固有的数据工作,看起来将迎来变革. 有人欢迎,可 ...

  7. 英伟达新禁令:不能随便用GeForce显卡跑深度学习(挖矿可以)

    维金 允中 发自 凹非寺 量子位 出品 | 公众号 QbitAI 终于藏不住了. 正值西方国家欢度佳节之时,一份英伟达的surprise终于被发现. 是一条关于GeForce的禁令. 这款备受AI&q ...

  8. gpu超算算法_英伟达推GPU加速Arm服务器参考设计!微软Azure启动GPU超算实例

    芯潮(ID:aichip001)文 | 韦世玮 芯潮11月20日消息,昨天,英伟达在2019国际超级计算大会(SC19)上推出用于构建GPU加速Arm服务器的参考设计,以及用于优化网络和存储数据处理的 ...

  9. 英伟达凭借GPU与AI笑傲本届CES展会

    英伟达公司联合创始人兼CEO黄仁勋在本周三晚身着大家熟悉的黑色夹克再度亮相消费电子展(简称CES),并致开幕主题演讲. 我们很难想象其它芯片厂商的CEO会像他这样,在全球最大的贸易展会之一上受到与会者 ...

最新文章

  1. 关于光耦隔离通讯中限流电阻的选取问题
  2. 使用c3p0对mysql进行增删改查_c3p0连接池连接数据库 并增删改查
  3. 从未在一起更让人遗憾_我们从未在一起和我们最终没在一起,哪一个更让人难过?...
  4. 放苹果问题 POJ 1664
  5. 数据库密码配置项都不加密?心也太大了!
  6. STM32F4 HAL库开发 -- GPIO
  7. 区块链浏览器_欧科云链OKLink区块链浏览器,如何挖掘数据背后的价值?
  8. vscode 模糊部分代码_本周 GitHub 速览:您的代码有声儿吗?(Vol.38)
  9. 注释 向 Java 代码中添加元数据
  10. 蒙特利尔问题(三门问题)的解释
  11. 字典 选取前100_100道 Python 经典练习题004
  12. pytorch---模型加载与保存(2)
  13. 人脸库对比(百度人脸识别)(Java版)
  14. Adams安装出错的一种情况
  15. 语义分割系列3-SegNet(pytorch实现)
  16. 潮流计算程序————支路功率计算与输出程序
  17. java happen-before_Java内存模型happen-before的实现原理
  18. zotero 使用小技巧
  19. 【转】国内外优秀的计算机视觉团队汇总
  20. 第17课 Altium Designer20(AD20)+VESC6.4实战教程:总体布局和定义板子边框(第二版)(北冥有鱼)

热门文章

  1. 为什么机器学习工程师严重短缺?
  2. 初学编程者如何摆脱搭建开发环境的困扰?
  3. 005.在Windows下编程让效率起飞
  4. 如何才能更容易拿到大厂Offer?从理论到实践!
  5. php扩展多线程和多进程,PHP 多进程和多线程的优缺点
  6. 2008年卫星地图_黄河入海口1984年-2016年,34年卫星地图变化
  7. android获取电池是否充电,Android 判断电池是否为充电状态的方法
  8. redhat 6.5 mysql rpm_CentOS6.5和RedHat6.5下以rpm方式安装mysql-5.6.20
  9. python某公司为员工发放奖品_python实现年会抽奖程序
  10. 函数沿某一方向的变化率_多元函数知识点(1)