雷锋网按:在10月的2018全国高性能计算学术年会(HPC China 2018)上发布的中国高性能计算机性能排行榜TOP100中,中科曙光第九次夺取中国内市场份额的第一名。而在11月全球超级计算大会(SC18)上,全球首款采用了浸没式液体相变冷却技术刀片服务器的HPC系统——曙光新一代硅立方高性能计算机首次亮相,标志着使用全新浸没式液冷高效散热技术的硅立方产品形态的诞生。

软件层面上,中科曙光发布了SothisAI2.0人工智能平台,推动AI、深度学习及训练领域与HPC的深度融合。依托AI大潮,中科曙光也在以AI为主体业务的互联网领域斩获颇丰,签下了以今日头条为代表的大单,标志着其在互联网方向非传统HPC领域的大力发展。

中科曙光表示,融合将会是未来重点推动的理念之一,希望能够将平台打造成支撑HPC、大数据或AI的综合性先进计算平台。

近日,雷锋网(公众号:雷锋网)与中国科学院计算机网络信息中心副主任研究员迟学斌、曙光副总裁、中国国家高性能计算机工程技术研究中心副主任何铁宁,以及曙光公司高HPC方案与交付部经理杜夏威,就中科曙光HPC领域在2018年及未来的发展状况进行了交流对话。

异构计算兴起

2018年,HPC领域出现了许多新名词新概念,比如以前常用的性能单位是Flops,现在又多了一个新单位Ops,不再以浮点运算作为衡量标准,而是对操作次数的考量。此外还有NVIDIA产品上常见的Tensor Core,这一新计算单元在未来的AI运算领域还会有更多发展空间。

自NVIDIA DGX2公布后,HPC界开始从纯粹追求高性能,转变为与AI寻求更好的结合,美国的Summit超级计算机也不例外。随着Summit重新夺回了中国占据多年的TOP500第一名,让采用CPU+GPU这种异构体系结构的HPC成为了绝对主流。

迟学斌对雷锋网讲到,Summit这台机器让人印象特别深刻的一点是它的实测效率很高,达到了70%多,这在已有的异构系统里应该是最高的一台,其最高性能高达3EOPS,这对于中科曙光来讲是一个挑战,要发展同样E级计算HPC的话,其他途径很难实现,只能使用异构体系。

据介绍,在全球超级计算大会上,已经有一些非常完美的Summit应用展示了出来,例如由美国加州理工大学和国家实验室设计的,使用传统科学计算和AI计算相结合来预测地震的应用,在设计上非常有意思。

“地震整体的计算使用了传统科学计算中的有限元,而在单点破坏严重的地方则使用了测量数据加AI推理。”何铁宁分析道,“两者结合之下,将Summit这台机器应用到了完美,并据此得到了戈登·贝尔奖。”他表示,这些应用最值得学习的地方是如何让传统科学计算和AI计算这两者有机的结合起来,实现比较完美的负载均衡完全匹配。

绿色、高效、可扩展

在2018年的HPC领域,节能性已经成为了一个非常重要的问题,这从全球超级计算大会Green500排名便可见一斑。

根据雷锋网的观察,目前在一个计算中心的成本中,电费占据了相当大的比例,而为缓解这一状况,内蒙古等北方能源产地正在积极考虑如何将煤炭直接转变为计算力。即首先把煤炭能源就地转为电力输出,未来的计算中心则可以直接选址于此并直接将电力转化为计算力输出。

“原来要将北方开采的煤炭通过大秦铁路运到南方,发电之后再千里输电给计算中心,最后才能输出计算力。”何铁宁称,“如果就地开采、就地发电、就地计算,然后直接把计算力从内蒙古输到广东,可以极大的减少现在运煤和输电过程中的一系列损耗,整体运转效率很高。”

他表示,目前中科曙光正在与呼和浩特政府进行探讨研究,未来可能在呼市展开试点建设。

此外,未来在HPC上执行的运算,可能不再全部属于传统科学计算,其中还会包括一些推理等AI计算。原来HPC所处理的应用大部分属于确定性的问题,在计算结果完成后只需精度符合要求即可,而以后要处理的问题可能越来越多是属于趋势问题,不再是靠精度取胜。

针对这一转变,迟学斌以股市分析举例,这是很动态的东西,并不需要那么精确,但是要能正确描绘出其整体走势。“这种动态问题在未来会发挥更重要的作用,现在传统科学计算的规模受到可扩展性的制约已经很难大幅提升,在传统科学计算和AI计算相结合的新形势下,可扩展性的问题依然是关键性问题。”

中国超算的机遇和挑战

今年的HPC市场风起云涌,一边是美国两台新超算Summit与Sierra,将占据HPC TOP500榜首多年的中国超级计算机神威太湖之光挤到了第三位,另一边则是中国超算的入榜数量由半年前的206台增加到227台。此消彼长的激烈竞争让我们更加关心,相比发达国家的超算技术领域,国内在超算领域主要存在哪些机遇和挑战?

对此杜夏威表示,从企业的角度来看,真正的HPC技术在传统行业或成熟产业界的渗透其实还远远不足。国内能做到依托HPC系统助推制造与仿真的制造业相比国外还很少,有很多高端制造企业依然停留在传统工作站或传统使用方式上,并不能有效利用或将其业务迁移到HPC系统并充分发挥效能,以加速产业或设计的快速迭代。

“这一情况影响的不仅是能不能完成计算的问题,可能还会影响依托计算衍生出来的整个产品生命周期管理、数据管理以及数据交互问题,甚至还包括未来一步步迭代产生的知识库复用问题。”杜夏威对这一问题非常认真,“这是一个很大的链条,我们与国外相比还有很大的差距。”

迟学斌指出,中国在HPC领域跟国外一直有差距,也一直在追赶。这种差距主要体现在软件和应用层面,且这种差距并非依靠资金投入便能实现追赶,而是要持续不断的慢慢积淀。目前国内HPC硬件上的“弯道超车”并不能掩盖整体缺乏良性发展的情况,我们现在也正向这一模式靠拢,想办法完善生态体系,但差距依然很大。

“我们差的其实是一份底蕴。”何铁宁总结道,“国外是一点点发展起来的,我们现在重要的是把欠下的基础打牢。”

对于即将到来的2019年,迟学斌表示中科曙光的重点仍然在于E级超算,“实现途径可能是异构也可能是众核”,同时AI还是会继续下去,依托于AI和传统HPC如何能够彼此配合或者融合起来,这可能还是各家追逐的热点。此外中科曙光在软件上的投入也将逐渐增加,明年将会有更多的投入在生态建设上。

硬件超车无法掩盖生态缺失,软实力构建任重而道远 | 中科曙光高性能计算专访...相关推荐

  1. 提升“软实力”门槛,今年Gartner超融合软件魔力象限有点“魔性”啊

    近日,全球权威IT研究与顾问咨询机构Gartner发布了2020年超融合基础设施(HCI)软件魔力象限(Magic Quadrant for Hyperconverged Infrastructure ...

  2. 正益工场为京西创客工场输送双创“软”实力

    12月30日,中关村门头沟科技园"京西创客工场"正式揭牌,这里将成为京西"生态科创"的聚集地.正益工场作为唯一入驻的"移动互联网+"双创生态 ...

  3. 你在面试时是否无意中暴露了缺点?资深面试官如何从细节中看候选人的软实力...

    面试时,面试官不仅会考察专业技能,更得考察候选人的软实力,比如候选人的沟通能力,以及团队协作能力,更重要的是,得确保候选人不是刺头,能和现有团队和睦相处.如果发现候选人虽然能力很强,但进团队后由于沟通 ...

  4. 打造数据中心的软实力

    在IT领域,整合或者说融合已经形成了一股巨大的洪流,不可逆转.IT厂商会提供融合了计算.存储.网络甚至是软件的整体解决方案,而用户也希望与单一供应商打交道,以减少整体采购和使用成本.在数据中心领域也上 ...

  5. 刚入行的测试工程师如何自学软件测试【下篇】-- 软实力

    子曾经曰过:"这个bug在测试环境中没有啊!" 大家好,我是Dzreal,工作三年的测试开发工程师.曾经在作业帮.贝壳找房工作. 上篇谈到了测试开发具备的一些硬实力:测试思想 . ...

  6. 程序开发中的软实力和硬实力

    概述:实力是一种客观存在,而霸权不同,霸权的基础虽然是实力,但它更是一种感知,是其他国家对他实力的感知. 一个大国,当然要积累实力,但重要的是通过战略运作,来经营国际社会对你霸权的感知.这个区别有意思 ...

  7. 激活休眠软件资产 提升企业软实力

    作为软实力的企业软件资产,应该随着积累而更加增值,业务价值也变得越来越大. 尊重软件知识产权,复用软件资产 如何不让公司花太多的钱?那就是要用好软件资产管理系统,将软件资产进行复用,这是非常重要的.刚 ...

  8. 所有人都需要的个人软实力(深度好文)

    大家好,你们的简单猿来了!今天主要和大家分享一下我们每个人都需要的个人软实力.结合自己的个人心得与梳理,和大家一起学习. 注意:本文讲的软技能 ≠ 心灵鸡汤. 目录 1.什么是个人软实力 2.个人软实 ...

  9. 硅谷华人高管少?看印度 CEO 怎么培养软实力!

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 11月30日,微软八年来第一次把苹果挤下最高值宝座,登顶全球市值最高公司宝座.然而不到一周的时间,苹果再次反超微软,重回霸主地位. 虽然微软的股 ...

  10. 怎么看待软件测试这些软实力?

    软件测试的软实力,一些让职场生活稍微顺心一点的方法,看看你有吗? ✦01 控制好自己的情绪✦ 引用<每天演好一个情绪稳定的成年人>里的一句话"成长过程中,最要紧的事情是:停止暴露 ...

最新文章

  1. ubuntu安装之后的最初几天一路杂记
  2. A Network-based End-to-End Trainable Task-oriented Dialogue System
  3. 修改数据,如何将原数据带到输入框
  4. 网页静态化和网页伪静态化之间的区别与选择
  5. erpnext mysql_windows7+docker+erpnext部署
  6. LeetCode 130. 被围绕的区域(图的BFS/DFS)
  7. Spring Boot jar方式打包发布
  8. php删除表中一行数据,mysql如何删除表中一行数据?
  9. 为什么Linux与众不同?
  10. 论【软件工程是不是教会不怎么会写程序的人软件开发】
  11. 图形驱动程序和显卡驱动什么区别_电脑游戏显卡和专业图形显卡存在的区别
  12. 平江南江计算机培训,平江县南江学区: 假期培训促提升,收心归位再出发
  13. php分割金额_PHP实现红包金额拆分算法案例详解
  14. 《魔兽争霸3》战网命令详解
  15. 加拿大前十大学计算机硕士学费,加拿大各大学硕士学费的情况介绍
  16. Linux:fd_set 结构体定义及使用
  17. vue打包之后谷歌浏览器可以正常打开,而其它一些浏览器360等无法正常打开
  18. 修改盒子上的host文件
  19. CL201课堂笔记-RCHA认证之路-OpenStack DAY TWO - AM
  20. 汽车电子 CCP学习

热门文章

  1. VC++6.0选择打开文件命令时停止工作解决方法
  2. ubuntu下gedit查看txt中文乱码解决办法
  3. 一些Arduino 测试代码
  4. 《剑指offer》第五十六题(数组中唯一只出现一次的数字)
  5. SQL tp3.2 批量更新 saveAll
  6. 【 数据结构(C语言)】线性表——链表反转
  7. 理解OpenCL数据类型
  8. windows Azure平台开发
  9. ASP.NET MVC+EF框架+EasyUI实现权限管理系列(23)-设置角色遗留问题和为权限设置角色以及EasyUI Tabs的使用...
  10. CentOS - 安装mysql