浪潮HPC实验室

一、Intel第三代至强可扩展处理器(Icelake)性能大升级

Intel于今年发布了第三代至强可扩展处理器系列产品(代号Ice Lake),与上一代至强可扩展处理器系列产品(代号Cascade Lake)相比,第三代至强可扩展处理器的改变是从里到外的,其主要升级点包括:

(1) 制造工艺从14nm升级到了10nm,理论晶体管密度提升了2.7倍;
(2) 微架构升级,IPC大幅提升20%;
(3) 最高核心数从之前的28核提升到了40核,AVX2/AVX512指令集持续优化,L3缓存也从每核1.375MB增加到了1.5MB;
(4) IO性能获得大幅提升,内存从6通道升级到了8通道,改善内存访问延迟。PCIE协议也从之前的PCIe 3.0升级到了PCIe 4.0。此外,UPI总线带宽也有小幅的提升。

这些硬件性能的提升是否也会对应用的性能起到正面的促进作用呢?特别是针对气象气候这类需要大量的CPU核做大规模并行计算才能完成任务的应用。我们知道,一般气象气候类应用的BF Ratio都比较高,即气象气候类应用的性能非常依赖于内存带宽,以及浮点计算能力。因此,对于气象气候领域的应用而言,第三代至强可扩展处理器这些升级无疑是让人充满惊喜和期待的,尤其是其AVX指令集的优化带来的浮点计算速度的提升和内存通道的增加带来的内存带宽的释放。那么第三代至强可扩展处理器对于气象气候应用的性能提升相对于Intel 之前的处理器到底怎么样呢?在此我们选取气象气候领域常用的几个天气预报和气候预报模式,包括WRF中尺度天气预报模式、MPAS-A跨尺度大气模式、CESM地球系统模式进行了评测分析。

在下面的测试对比中,我们针对不同的应用,在浪潮的HPC实验室里面构建了测试环境,计算节点分别使用了第二代至强可扩展处理器系列中的6230、6248、以及6258R等三款处理器;第三代至强可扩展处理器系列中的8358处理器,来做对比分析。

二、中尺度预报模式WRF性能对比

WRF简介
中尺度预报模式 WRF(Weather Research and Forecasting model)是由美国大气研究中心(NCAR)、美国大气海洋局(NOAA)和美国空间气象局(AFWA)等共同开发的。 WRF 模式可用于数值天气预报的研究与业务化、物理参数化方案研究、数据同化、驱动空气质量模式、中小尺度气候模拟以及海洋大气模式的耦合等。

WRF测试算例
表1给出了 WRF 算例的网格范围和计算规模。模拟区域为两层嵌套,空间分辨率分别为 12km 和 4km,水平方向格点数分别为 425300 和 1150802,时间步长为 30s 和 10s,垂直方向均为 35 层。预报时间为 3h。模式每 3h 输出一次数据。

WRF性能测试结果

我们分别在6230处理器平台和8358处理器平台上测试了WRF使用224核运行时的性能。WRF算例在6230处理器平台的运行时间为695 s,在8358处理器平台的运行时间为489 s,与6230处理器平台相比,WRF在8358处理器平台性能提升42%(图1)。这主要是因为WRF为计算密集型和内存带宽限制型应用,得益于第三代至强可扩展处理器架构的八内存通道设计,使内存带宽得以释放。此外浮点计算速度的增加以及低延迟的内存访问,使得在8358处理器平台上运行 WRF,性能会有很大的提升。

图1 6230处理器平台和8358处理器平台WRF性能对比

三、跨尺度预报模式MPAS-A性能对比

MPAS-A简介
MPASA (Model for Prediction Across ScalesAtmosphere)模式是由美国国家大气研究中心(NCAR)主导研发的全球非静力平衡的跨尺度预测模式。该模式采用非结构质心 Voronoi 多边形网格和 ArakawaC 离散化方案。非结构化网格避免了结构经纬度网格中两极的奇异点和极区网格过密的问题。另外, MPASA 可由低分辨率区域较为平滑地过渡到高分辨率区域,使得模拟关键区域有较高分辨率同时还避免了边界处物理量的突变。

MPAS-A测试算例
在我们的测试中,MPAS-A算例使用的是全球60 km分辨率网格(图2),积分步长为360 s,预报时间为2 h。

图2 MPAS-A非结构网格

MPAS-A性能测试结果

我们分别在6230处理器平台和8358处理器平台上测试了MPAS-A使用320核运行时的性能。MPAS-A算例在6230处理器平台运行时间为26.5 s,在8358处理器平台运行时间为15.5 s,与6230处理器平台相比,MPAS-A在8358处理器平台上的性能提升了71%(图3)。MPAS-A与WRF相似,也是内存带宽限制型应用。因此8358处理器内存通道的增加也有助于提升MPAS-A的性能。

图4为MPAS-A算例在6230处理器平台和8358处理器平台运行时单计算节点内的实时浮点计算速度和内存带宽对比。从图中可以看出,与在6230处理器平台相比,MPAS-A在8358处理器平台上的浮点计算速度和内存带宽都大幅提升,从而使得在8358处理器平台上的MPAS-A性能大幅提升。另外,从BF Ratio来看,在6230处理器平台MPAS-A的BF Ratio值约为2.55,而在8358处理器平台MPAS-A的BF Ratio值约为2.40。这与6230处理器平台相比BF Ratio值略有下降,其中的原因主要是与8358处理器平台每核心L3缓存增加从而降低了LLC miss率有关。

图3 6230处理器平台和8358处理器平台MPAS-A性能对比

图4 MPAS-A算例在6230处理器平台和8358处理器平台运行时单计算节点内的实时浮点计算速度和内存带宽对比

四、地球气候系统模式CESM性能对比

CESM简介
CESM由美国国家科学基金会和美国能源部支持开发,由国家大气研究中心的气候和全球动力实验室维护的一个气候系统模式。CESM由模拟地球大气,海洋,陆地,陆冰、海冰、径流和波浪7种子模块组成,中间通过一个耦合器连接,用来模拟地球的过去,现在和未来的气候状态。

CESM测试算例
在本次测试中,CESM所使用的算例为全耦合模式,网格是f19_g16,预报时间为1年。

CESM性能测试结果
我们选取第三代至强可扩展处理器8358,并在由其构建的HPC集群上对CESM进行了测试和优化。与第二代至强可扩展处理器系列相比,CESM在8358处理器平台上有了较大的性能提升。单节点性能提升分别为94.1%(6230处理器)、82.7%(6248处理器)和64.5%(6258R处理器)。这主要是因为CESM的BF Ratio接近1,内存带宽不受限制,且应用主要受限于IO和通信的影响,故性能提升不能达到理想的线性提升,会有一定的降低,但也可以达到82.7%(6248处理器)和94.1%(6230处理器)。

图5 不同处理器平台下的CESM性能对比

五、测评总结

结合Intel 今年新发布的第三代至强可扩展处理器(Icelake)的内存通道增加,以及AVX2/AVX512指令集的进一步优化等种种令人惊喜的升级,和气象气候领域应用高BF Ratio的特点,我们在第三代至强可扩展处理器8358构建的HPC集群上对几种常用气象气候应用包括WRF、MPAS-A、以及CESM进行了测试分析,并与Intel之前的第二代至强可扩展处理器进行了对比。从性能来看,使用相同核数时,与在Cascadelake 6230处理器平台相比,在Icelake 8358处理器平台WRF性能提升42%,MPAS-A性能提升71%。这主要是因为WRF为计算密集型和内存带宽限制型应用、MPAS-A为内存带宽限制型应用。正是得益于Icelake的八内存通道设计,使得内存带宽得以释放,此外浮点计算速度的提升以及低延迟的内存访问,促使在8358处理器平台上WRF和MPAS-A的性能都获得了大幅提升。而对于气候模式CESM,内存带宽不受限制,但同样得益于Icelake的内存带宽和浮点计算速度的大幅提升,性能更是分别提升了82.7%(6248处理器)和94.1%(6230处理器)。

气象气候应用在Intel最新处理器Icelake上的性能测评相关推荐

  1. Intel 4004,世界上首个CPU,进不惑之年

    为什么80%的码农都做不了架构师?>>> 你可能没有意识到,今天,世界上最重要的一项技术正值其40岁生日.1971年11月15日,一家名叫 Intel 的公司发布了其 Intel 4 ...

  2. intel最新的服务器芯片,Intel最新服务器CPU 芯片组Roadmap

    AnandTech释出了Intel最新的企业产品Roadmap,包括服务器和工作站芯片组,双核心Xeon以及Itanium 2处理器. 双核心Xeon处理器将在今年结束前出货,而明年第一季推出65nm ...

  3. Intel(R) 处理器产品架构/微架构对照表

    Intel(R) 处理器与微架构对照表 2020/12/23:更新至IceLake/TigerLake微架构 2019/07/09:更新至 2nd Generation Intel® Xeon® Sc ...

  4. Intel最新路线图:10nm得等2017年底

    以先进制造工艺为最大资本的Intel这两年也不太顺利,22nm.14nm先后延期并且被迫多用了一代,未来的10nm同样遭遇麻烦,原计划今年推出但已经推迟到2017年. MacBook Pro的配置可能 ...

  5. html模版i7,2017万元级专业制图 Intel最新七代i7-7700K专业建模渲染设计师电脑配置推荐...

    不少网友反馈表示,专业建模渲染对CPU要求很高,选择i5并不是很合理.此前由于预算的原因,在很多硬件方面都有些缩水,以至于一些设计师用户群体吐槽,今天带来一套相对没有短板的万元级2017设计师专用电脑 ...

  6. intel芯片内核linux,Linux:再见了Intel 386处理器

    Linux系统内核开发和维护老大Linus Torvalds今天宣布,Linux系统将会放弃对Intel 386处理器这个老古董的支持.可能对很多人来说放弃支持不是新闻,到现在还支持才是新闻吧. 38 ...

  7. intel最新服务器平台,五舟科技发布基于Intel Purley平台的下一代服务器产品

    五舟科技发布基于Intel Purley平台的下一代服务器产品 2017年7月12日,Intel发布了全新Xeon系列下一代产品Purley处理器,新的处理器有着无与伦比的技术规格,性能上有较大的提升 ...

  8. Intel汇编语言程序设计学习-第二章 IA-32处理器体系结构-上

    第2章  IA-32处理器体系结构 2.1  基本概念 本章以程序员的视角描述Intel IA-32处理器家族机器计算机系统,包括所有的Intel兼容处理器,如AMD的速龙(Athlon)和皓龙(Op ...

  9. Intel 正式宣布8代酷睿处理器:14nm、性能提升15%

    日前,Intel 在投资会议上正式宣布了8代酷睿处理器,率先披露的是i7-8000系列,定于今年下半年亮相.而8代酷睿依然采用的是14nm工艺,而非10nm:此外,Intel还公开了8代酷睿的性能:8 ...

最新文章

  1. atitit.php中的dwr 设计模式
  2. 2018年中国65家机器人产业园布局与规划汇总盘点
  3. 第八周项目5-定期存款利息计算器
  4. 互联网协议 — Ethernet 局域网技术的发展
  5. java stringbuffer详解_Java常用类StringBuffer详解
  6. 张景中:把数学变容易大有可为
  7. 【Python3】【爬虫】meizituSpider
  8. 关于陀螺仪 deviceorientation
  9. PADS2007破解方法之图文并茂版----本人亲自实践
  10. php聊天室把数据存在缓存里,php聊天室信息存储的问题
  11. Japanese Student Championship 2019 Qualification B - Kleene Inversion(规律 + 快速乘)
  12. Jpa 注解详解 映射详解 一对多 多对一
  13. 金山毒霸修复dns服务器,DNS被劫持或提示配置错误,该怎么解决
  14. php语言讲座,学习PHP语言的十大诀窍
  15. 人工智能就业前景怎么样?
  16. python 画饼图
  17. IFE耀耀学院-表单总结
  18. 2190 悼念512汶川大地震遇难同胞——重建希望小学
  19. 最新爆料 !公众号很有必要接入微社区吗?
  20. 什么是正交,函数空间,希尔伯特空间,施密特正交化,线形代数基础

热门文章

  1. acc定义代码 神经网络_神经网络的这几个坑,你都躲过了吗
  2. java保存文件到linux指定目录_怎么使用java编程实现linux下全部文件目录的遍历
  3. mysql进阶3_MySQL进阶
  4. 分割函数python_python strip() 函数和 split() 函数的详解及实例
  5. python取列表前几个元素_Python下几种从一个序列中取出元素的方法
  6. arduino 停止程序_极路由1S OpenWrt开机自启程序及串口调试
  7. hao123电脑版主页_百度浏览器停更没关系,hao123才令人唏嘘!
  8. 中国工程院2021年院士增选有效候选人都来自哪些单位?
  9. 周博磊自述5年研究经历:一个神经元的价值和一个神经病的坚持
  10. 牛!这个省明确:科研人员平均薪酬水平 要高于企业管理人员!