SCC(超级计算集群)简介 SCC概述 超级计算集群(Super Computing Cluster,SCC)使用高速RDMA网络互联的CPU以及GPU等异构加速设备,面向高性能计算、人工智能/机器学习、科学/工程计算、数据分析、音视频处理等应用,提供极致计算性能和并行效率的计算集群服务。

SCC实例类型 类型 CPU Memory 网络 存储 适用场景 ecs.scch5.16xlarge 64核 Skylake Xeon Gold 6149 3.1GHz 192GB 50 Gbps RDMA 高效云盘(容量可选) + SSD云盘(容量可选) CPU主频高,单核计算能力强,适用于多数计算密集型应用场景 ecs.sccg5.24xlarge 96核 Skylake Xeon Platinum 8163 2.5GHz 384GB 50 Gbps RDMA 高效云盘(容量可选) + SSD云盘(容量可选) CPU核数多,内存容量大,适用于内存需求较高、扩展性好的科学计算场景以及高并发的批处理场景 使用SCC实例创建E-HPC集群 创建过程 目前配备有SCC实例的可用区主要有:华东1可用区H、华东2可用区B、华北1可用区C、华北3可用区A。考虑到库存的变化,用户在创建集群之前可以通过ECS管理控制台查看SCC实例在不同可用区的分布情况。 从E-HPC管理控制台进入集群创建页面,在计算节点下划栏中勾选SCC实例。 勾选SCC注意:上图中SCC实例的CPU核数是按照vCPU数目来显示的,而实际交付的SCC实例为超线程关闭(HT off)状态,即scch5.16xlarge和sccg5.24xlarge的CPU核数分别为32物理核和48物理核。

后续创建过程请参考E-HPC集群创建与配置 硬件信息 相比于普通ECS实例,SCC实例的核心硬件升级之一在于配备了50Gbps的RoCE(RDMA over Converged Ethernet)网络,故网络信息与普通ECS实例相比有明显差异。

网络硬件信息 相比于普通ECS实例,SCC实例同时拥有10Gbps VPC网络和50Gbps RoCE网络的网口,因此在会ECS管理控制台上会同时显示两个IP地址。 SCC IP

正常的SCC实例会显示如下网口信息,其中bond0为RoCE网口,eth0为VPC网口。 SCC网口信息

网络连通性验证 同一个E-HPC集群下的SCC实例间的VPC网络IP和RoCE网络IP均可以相互ping通 同一个E-HPC集群下的SCC实例间可以通过VPC网络IP和RoCE网络IP进行ssh登陆 RoCE网络性能测试 测试RoCE网络的峰值带宽与延迟 带宽测试样例 ##读带宽测试 ib_read_bw -a -q 20 --report_gbits ##服务端compute0执行 ib_read_bw -a -q 20 --report_gbits compute0 ##用户端compute1执行 ##写带宽测试 ib_write_bw -a -q 20 --report_gbits ##服务端compute0执行 ib_write_bw -a -q 20 --report_gbits compute0 ##用户端compute1执行 延迟测试样例 ##读延迟测试 ib_read_lat -a ##服务端compute0执行 ib_read_lat -F -a compute0 ##用户端compute1执行 ##写延迟测试 ib_write_lat -a ##服务端compute0执行 ib_write_lat -F -a compute0 ##用户端compute1执行 监测RoCE网络的实际带宽利用情况 在SCC实例root用户下执行rdma_monitor -s实时获取RoCE网络信息 rdma_monitor

使用E-HPC性能监控与分析引擎集谛来监测各SCC实例RoCE网络带宽随时间的变化情况。 集谛监测RoCE

在SCC集群上编译和运行MPI程序 由于SCC实例同时支持50Gbps RoCE网络和10Gbps VPC网络,用户在执行跨节点MPI程序时可能会遇到节点间数据流量默认走VPC网口的情况,这里我们推荐用户在SCC集群上使用IntelMPI来编译和运行跨节点MPI程序。

编译跨节点MPI程序 安装IntelMPI E-HPC集成了IntelMPI 2018版本,用户只需在E-HPC控制台集群创建或软件管理功能界面中勾选IntelMPI 2018进行安装即可。

intelmpi

配置MPI环境变量 方法一:使用E-HPC集成的Module管理工具 $ module avail --------------------------------- /opt/ehpcmodulefiles -------------------------------- intel-mpi/2018 $ module load intel-mpi/2018 $ which mpicc /opt/intel/impi/2018.3.222/bin64/mpicc 方法二:执行IntelMPI自带的环境变量配置脚本 $ source /opt/intel/compilers_and_libraries/linux/bin/compilervars.sh intel64 $ which mpicc /opt/intel/impi/2018.3.222/bin64/mpicc 设置MPI编译参数 完成MPI环境变量配置后,需要在软件Makefile或预编译脚本中指定MPI编译器的相对/绝对路径,然后执行编译过程。

-DCMAKE_C_COMPILER=mpicc -DCMAKE_CXX_COMPILER=mpicxx 运行跨节点MPI程序 对于在E-HPC软件环境中采用IntelMPI编译的软件,提交任务时无需额外指定网口参数,便可以直接通过RoCE网络进行跨节点数据通信。 #!/bin/sh #PBS -j oe #PBS -l select=:ncpus=:mpiprocs= module load intel-mpi/2018 mpirun 对于在用户本地环境编译的软件或预编译的商用软件,可以在提交MPI任务时指定RoCE网卡信息来避免可能出现的数据流量不走RoCE网络或网卡设备not found等问题。 #!/bin/sh #PBS -j oe #PBS -l select=:ncpus=:mpiprocs= export I_MPI_FABRICS=shm:dapl module load intel-mpi/2018 mpirun -genv I_MPI_DAPL_PROVIDER ofa-v2-mlx5_bond_0 用户可以使用集谛性能监测功能对SCC实例的CPU利用率、访存带宽、RoCE网络带宽等性能数据进行实时监测。 SCC性能

linux bond服务是什么,linux 查看bond相关推荐

  1. linux添加服务命令行,Linux系统自有服务(上)

    系统自有服务(上).md Linux系统自有服务 自有服务,即不需要用户独立去安装的软件的服务,而是当系统安装好之后就可以直接使用的服务(内置) 学习目标 1.了解Linux的7种运行模式 2.了解用 ...

  2. linux打印服务叹号,linux中如何通过echo输出!(叹号)? -bash: !: event not found

    需求描述: 今天在做通过echo结合passwd给用户改密码的过程中,出现无法修改的错误. 错误如下: [root@testvm ~]# useradd mytest [root@testvm ~]# ...

  3. linux etc 服务启动脚本,linux 服务脚本启动问题

    对于使用了 systemd 的系统,所有的 service 服务都会默认转为 systemd 服务之后再由 systemd 来执行,转换之后,你也可以直接使用 systemd 来执行了(它的用户工具就 ...

  4. 设置linux拨号服务端,CentOS Linux上搭建PPPoE服务器及拨号设置

    CentOS下PPPoE拨号设置 1.查看并安装拨号软件: [root@RedHat ~]# rpm -qa|grep pppoe [root@redhat ~]# yum -y install rp ...

  5. linux xdm服务无法关闭,Linux远程操控XDM认识和配置

    一.引言 我们可以通过telnet.ssh等远程登录Linux服务器,但都是字符界面的.本文介绍了通过XDMCP+XDM来 远程连接Linux服务器上的XFree86 Server,可以在图形环境下远 ...

  6. linux samba 服务端口号,Linux系统学习 二十、SAMBA服务—介绍、安装、端口

    1.简介 网络数据文件共享服务器 可以和Windows中的网上邻居通用 数据共享的方法: Windows中最常用的是"网上邻居".网上邻居使用的文件系统是CIFS(通用互联网文件系 ...

  7. linux网络服务详解,Linux网络服务器配置基础详解 (3)

    Linux网络服务器配置基础详解 (3) Linux网络服务器配置基础详解 (3) 第三步:编辑"inetd.conf"文件(vi /etc/inetd.conf),禁止所有不需要 ...

  8. linux 启动服务后台运行,linux后台启动任务

    当我们在终端启动服务或者训练模型时,启动命令往往会阻塞自己,即无法在终端继续输入,同时为了保证终端关闭不影响进程中断,需要在后台启动进程. 1. nohup命令 后台启动常用的命令如下: nohup ...

  9. linux iscsi服务开启的,linux iscsi服务实现

    1.使用mount将光盘位置/dev/cdrom内的文件挂载到/mnt/cdrom位置上: mount /dev/cdrom /mnt/cdrom 2.使用find 命令查找安装包: find -na ...

  10. linux smb服务安装包,Linux下如何安装smb服务

    Linux下如何安装smb服务 什么是smb服务 smb服务提供一个基本的服务,这个服务很有用哦:作为一个Linux程序员,我们编写.维护.运行的代码都是存放在Linux机器上,但是我们常常阅读修改代 ...

最新文章

  1. 五、任意输入10个int类型数据,排序输出,再找出素数
  2. About A Scam
  3. 对天天开心消消乐(订餐系统)的建议
  4. mysql多重主键错误,老师,jd_spider中数据插入Mysql时一直显示主键错误,求助~
  5. python wordcloud 错误 ModuleNotFoundError: No module named 'query_integral_image'
  6. List转DataTable(反射)
  7. Android基础夯实--你了解Handler有多少?
  8. 计算机等级考试机试试题,计算机等级考试二级VFP机试试题18
  9. OPPO副总裁曝光Reno十倍变焦规格 能用上的安卓机皇不超过两个
  10. 详细介绍一下 Smoke Testing(冒烟测试)
  11. JS中图片缓冲loading技术的实例代码
  12. android进阶(三)数据存储之Internal Storage
  13. windows下odbc数据源配置
  14. 自己的界面添加ani动态炫酷光标
  15. 什么是MIME类型?
  16. java导出excel锁定状态_填报表导出excel后不可写的单元格处于锁定状态
  17. 计算机专业研究生平均月薪,广东:计算机专业研究生月薪过万 本科生学针灸推拿工资最高...
  18. IOI2020国家集训队集中培训通知及如何进入国家集训队
  19. 傅里叶变换,其物理意义是什么?(转)
  20. 行政组织理论-阶段测评2

热门文章

  1. 大于/小于/等于 的缩写
  2. 两条平行线之间的距离
  3. 13.6.1 PDF 偏执狂
  4. treemap倒叙_java对map进行排序(对日期倒叙)
  5. Python如何使用Any和All?代码示例和解析
  6. CenterNet网络中的hourglass网络(深度学习)
  7. Pytorch下基于lstm的股价预测
  8. 判断日期是否是明天,今天,昨天
  9. 解除百度网盘下载限制的办法
  10. COLORMAP_JET的颜色规律