雷锋网消息,2018年11月20日,NVIDIA在苏州召开了GTC China 2018大会。与会者对这场技术大会的期待不仅在于NVIDIA本身,对于其产品和技术在国内的具体应用也倍加关注。

在本次大会上,国内高性能计算领军企业中科曙光推出了全新的XMachine系列AI服务器,基于Intel Skylake CPU,最多可通过NVLink支持8块NVIDIA GPU、10卡训练GPU、20卡推理加速卡。底板采用CPU主板和GPU解耦合设计,可根据CPU和GPU的发展各自独立升级,降低用户更新换代成本。

发布会后,雷锋网与中科曙光智能计算技术总监许涛进行了深入的交流对话,获悉中科曙光在产品和市场上的一些思考。

重新认识高性能AI服务器

对于大多数人来说,高性能计算(HPC)产品和传统的服务器似乎没什么区别,都象征着“专业级”、“企业级”等高大上的定位。不过在谈话中我们了解到,以高算力为需求的产品,已经从传统服务器中独立出来了,其设计方式和传统服务器有很大不同。

许涛向雷锋网介绍,二者首要的区别在于传统服务器的功耗密度相对较低,而AI服务器等高性能计算产品的功耗非常高,目前发售的AI服务器额定功率已达到3200瓦,下一代HGX产品给出的参考功率更是高达单台10千瓦,远远超过传统机架式和刀片式服务器。而功耗高也带来了发热量大的新挑战,这是AI服务器和传统的服务器最大的区别。

设计AI服务器时,供电和散热是需要重点考虑的问题,相应的对兼容性和稳定性的要求也都不太一样。在GPU加速卡刚出现的时候,单卡功耗不超过250瓦,而现在已经达到300瓦,按照目前的趋势,加速卡功耗还会随着时间推移变得更高,当单块加速卡功耗达到350瓦以上的时候,传统的服务器结构就很难满足了。

“在这么高的压力下,单个机柜里能摆放的服务器数量是非常有限的。”许涛给我们算了笔账,“3200瓦的AI服务器,一般的电信机房单柜只能放2台,即便是20千瓦容量的高端水冷机房也只能放6台。综合考虑实际部署情况之后,我们发现4U是非常合理的AI服务器尺寸。XMachine的GPU仓高度为3U,不仅散热空间大,也为未来的维护预留了很大的空间。”

而对于个人工作站,中科曙光在最新的W560-G30产品上也采用了改进设计的3段式散热方案:

GPU区域:RTX6000显卡功耗达300瓦,拥有专门的散热空间,并且使用IPMI功能精准读取显卡状态状况并管理显卡功耗和风扇散热,控制相应的风扇风量,在保证显卡散热的同时将办公环境下的噪音压缩至最低,最高可支持2块显卡全速运转。

CPU区域:支持2颗共56个物理核心的至强铂金CPU,每颗CPU的功耗达205瓦;2颗CPU风道互相隔离,每颗CPU均有独立进风,保证CPU在高功耗下稳定工作,并可支撑进一步的超频空间。

电源区域:使用可7*24小时稳定提供1250瓦供电能力的铂金电源,并设计有电源的独立风道;时在放置于数据中心使用时,可支持冗余电源和基于BMC的远程管理功能,变身成为高性能GPU服务器。

灵活应对百花齐放的推理端市场

随着异构计算越来越流行,现在HPC Top 500里排名靠前的超高算力服务器基本上都用到了GPU加速卡或者其他加速部件。据雷锋网(公众号:雷锋网)了解,目前NVIDIA已经基本垄断了AI计算的训练端市场,但在与用户应用贴合特别紧密的推理端,由于需要进行具体的应用部署,GPU作为一种通用计算单元的优势就会被削弱。

NVIDIA虽然面向推理端市场发布了T4计算卡,但是像Intel、赛灵思和寒武纪等公司,依然在积极开拓这一领域。根据介绍,XMachine系列AI服务器在设计上可以兼容多种加速器产品,这些芯片在市场中是互补的,中科曙光未来会针对不同应用场合推出使用不同加速芯片的服务器,就看终端用户的诉求是什么。

“在文字处理或信息导流等业务中,传统CPU的运算效率也很好;如果是需要捕捉黄金窗口期的商业化公司,那么NVIDIA T4这样的GPU加速产品可以让公司迅速上线项目。” 许涛为我们详细分析着几种不同的情况,“而对那些拥有特殊业务需求的定制化客户来说,他们需要经常迅速改换业务逻辑,这种情况下显然FPGA更适合。”

随后,许涛特别提到了寒武纪科技今年5月3日发布的首款云端智能芯片MLU100及对应的云端AI计算卡,并纠正了我们对国产AI芯片的一些认识误区。他表示,寒武纪MLU100芯片与NVIDIA P4/T4加速卡的设计理念大相径庭,二者在计算能力上并不能直接进行对比。

“寒武纪MLU100芯片所使用的AI框架和技术非常专一,可以快速实现CNN、RNN等各种各样的卷积过程,达到非常好效果,在特定的推理市场上给用户提供更好的加速。如果是与应用贴合非常紧密的研究型用户,寒武纪MLU100芯片可以在其特定环境下将算力发挥到极致。”

不担心被模仿

中科曙光此次发布的XMachine系列AI服务器,采用了CPU底板和GPU底板解耦的设计,未来可通过模块化组合的方式进行独立升级,以降低用户更新换代成本,最大限度保护投资。

为此我们不免担心,这种弹性灵活的创新设计,会不会慢慢被其他服务器厂商效仿?

对于这一问题,许涛很是自信:如果其他公司真的模仿我们的机器,说明我们引领了这个市场。

据悉,之前国内的GPU服务器来源基本都是OEM或ODM,但随着时间的推移,技术输入越来越困难,这些产品很难适应国内形形色色的定制化需求。

许涛坦言,中科曙光并不是国内第一家推出GPU服务器的厂商,但是他们希望可以做到最好,或者说可以在某些擅长的行业里面做到最好。而想要让产品始终保持先进的架构或结构,就要不停进行技术演进,一款产品成熟的过程就是一个反复迭代的过程。

“从我们自己的角度来看,现在的产品不应该是完美的,应该有新的版本不停迭代,让它变得越来越适用于用户应用场景,或者越来越适用于新技术的发展。”许涛解释道,“模仿是没有办法避免的,但在其他公司模仿的过程中,我们自身也在不停演进,所以我们并不担心产品被模仿。”

同时他还指出,随着技术的不断更新,很多技术要素想要模仿也是很困难的。中科曙光除与NVIDIA建立合作外,还与寒武纪等其他国产芯片合作,合作过程中需要投入大量技术资源和测试资源,这些投入都不是简单的模仿机器硬件可以实现的。

“从这个层面来讲,我们希望他们能模仿。如果其他公司真的模仿我们的机器,说明我们引领了这个市场。”

面向未来的云计算中心和先进计算平台

现在云计算已经不再像过去那样只停留在各种文章里面,随着认可度的逐渐提升,不管是专用云平台还是通用云平台都在慢慢落地,各种企业都越来越愿意为这份资源去花钱。

中科曙光的AI战略规划很大,一方面中科曙光有AI服务器自己的底层硬件产品,另一方面也在硬件产品的基础上设计配套软件,并拥有自己的云计算中心和先进计算平台。云计算中心既可以给用户提供计算资源,也希望能够通过虚拟化的技术,帮助那些有独特见解的用户实现他们的创意。

雷锋网了解到,中科曙光在云计算领域的起步其实非常早,在成都、无锡、南京、包头等地都有为政府提供服务的城市云计算中心。但许涛清楚地知道,云计算中心也需要随着时代前进而不停演进,随着普及程度的提高,如果只停留在传统的发展模式下,未来的竞争力会越来越弱。

“从我们的角度来看,更希望能在某些特殊领域或行业里供专业的云服务。”许涛解释道,“中科曙光的体量是无法和BAT这种通用云平台抗衡的,他们的构架非常庞大,可以把很多业务都牵进去,但是对我们来讲,想要保持业务的先进性,只能在一些特殊领域或行业里做到最尖端。”

“为用户提供特异化的服务,使我们的优势很难被通用云平台模仿,这才是正确的发展方向,也是我们眼中未来的云计算市场。”许涛如是说。

访中科曙光智能计算技术总监许涛:重新认识面向未来的AI服务器和云计算中心...相关推荐

  1. 面向未来 “亿”触即发-中科曙光技术创新大会重磅发布多项创新举措与成果...

    在市场需求瞬息万变的今天,企业如何构筑核心竞争力.永续推动产业化发展?中科曙光的答案是"面向未来创新". 昨日,中科曙光面向用户.合作伙伴及业界专业人士举办的大型创新分享活动--2 ...

  2. 9位院士及12位专家联合发表长文:智能计算的新进展、挑战与未来

    2023年1月3日,海内外9位院士及12位专家在Science<科学>合作期刊Intelligent Computing发表长篇综述论文<智能计算的最新进展.挑战和未来>.文章 ...

  3. 9位院士12位专家联合撰文:智能计算的新进展、挑战与未来

    量子位 2023年1月3日,海内外9位院士及12位专家在Science<科学>合作期刊Intelligent Computing发表长篇综述论文<智能计算的最新进展.挑战和未来> ...

  4. 清华孵化,打造智能驾驶感控平台,超星未来获千万A轮融资

    2020年5月14日,智能驾驶初创企业北京超星未来科技有限公司今天宣布已完成数千万元A轮融资,由恒大高科技领投,中关村前沿基金.和米资本.宝钜投资及图灵创投进行跟投.本轮融资将帮助超星未来在人才端和研 ...

  5. 华为云计算值班电工_华为FusionModule2000智能微模块荣获2019云计算中心科技奖卓越奖...

    5月15日-16日,2019中国数据中心市场年会在北京隆重举行,该会议由国家节能中心指导,中国电子节能技术协会数据中心节能技术委员会主办.华为FusionModule2000智能微模块凭借业界领先的i ...

  6. 频谱知识图谱:面向未来频谱管理的智能引擎人工智能技术与咨询

    频谱知识图谱:面向未来频谱管理的智能引擎 人工智能技术与咨询 4天前 本文来自<通信学报>,作者孙佳琛等 关注微信公众号:人工智能技术与咨询.了解更多咨询! 1 引言 频谱管理是指综合运用 ...

  7. 虚拟专题:知识图谱 | 频谱知识图谱:面向未来频谱管理的智能引擎

    来源:通信学报 频谱知识图谱:面向未来频谱管理的智能引擎 孙佳琛, 王金龙, 丁国如, 陈瑾, 龚玉萍 陆军工程大学通信工程学院 摘要:针对当前频谱管理中表征方式较单一.管理方式对人的经验依赖性较强. ...

  8. 面向未来的智能驾驶关键设计要素:融合定位

    面向未来的智能驾驶关键设计要素:融合定位 (360doc.com) 汽车在自动驾驶领域将面临前所未有的变革,这一变革不仅与驾驶过程中要求的功能更新有巨大的联系,也包含了对于整个驾驶系统开发过程中的架构 ...

  9. 无服务器人工智能去中心化,人工智能未来的发展方向是去中心化智能?

    原标题:人工智能未来的发展方向是去中心化智能? 随着AI人工智能在应用场景的爆发以及技术成熟推动下,将进一步向去中心化侧进行迁移,从而催生去中心化智能. 人工智能未来的发展方向是怎样的? 应用场景落地 ...

最新文章

  1. 企业区块链应用程序的两个关键问题
  2. cordova 实现网页缓存_如何解决ionic,cordova混合开发的app缓存大的问题
  3. linux中touch命令的作用,Linux中touch命令的作用是什么
  4. for语句与if语句嵌套的简单应用
  5. Android学习笔记-ListView
  6. spark学习-72-源代码:Endpoint模型介绍(4)-Spark为何使用Netty通信框架替代Akka
  7. SQL Server 索引使用分析(1)- 索引结构
  8. mysql数据库创建交叉表查询_sql – 我需要知道如何创建交叉表查询
  9. C++ STL min_element和max_element的使用方法
  10. Solidity基础入门知识---函数的访问权限和可见性
  11. matlab实现将彩色图像(R,G,B)色分量的直方图匹配,并计算其相关性
  12. Ubuntu常识学习之tty
  13. 计算机b类b级2020,CPU天梯图2020_笔记本CPU天梯图2020最新版【7月更新】-太平洋IT百科...
  14. js中this指向的三种情况
  15. rust相框加载图片代码_用代码为相片加相框的方法
  16. python 时间模块判断上午还是下午_Python的时间模块小结(转自:不懂真人)
  17. 我用php构建了魔兽世界服务器,只为证明php是世界上最好的语言
  18. 郑捷 机器学习算法与编程实践 --ID3决策树 python3 代码
  19. 微信小程序初始界面设置密码
  20. matlab kmo检验,RPCL(Rival Penalized Competitive Learning)在matlab下的实现

热门文章

  1. java adt怎么打开项目,如何在Eclipse中打开Android Studio项目?
  2. oracle 提取当天日志,powershell提取日志内容
  3. 树莓派udev不能自动挂载_直播课:教你用树莓派实现智能商店的自动结账
  4. HDLBits 系列(3)Priority Encoder(Case/Casez)
  5. ROM、PROM、EPROM、EEPROM、RAM、SRAM、DRAM的区别
  6. 【 MATLAB 】nextpow2 函数用法之 Optimize FFT with Padding
  7. ISE与Modelsim联合仿真关联设置
  8. linux-RPM安装
  9. python一个小程序:猜数字
  10. 分布式系统数据一致性解决方案