SCC(超级计算集群)简介 SCC概述 超级计算集群(Super Computing Cluster,SCC)使用高速RDMA网络互联的CPU以及GPU等异构加速设备,面向高性能计算、人工智能/机器学习、科学/工程计算、数据分析、音视频处理等应用,提供极致计算性能和并行效率的计算集群服务。

SCC实例类型 类型 CPU Memory 网络 存储 适用场景 ecs.scch5.16xlarge 64核 Skylake Xeon Gold 6149 3.1GHz 192GB 50 Gbps RDMA 高效云盘(容量可选) + SSD云盘(容量可选) CPU主频高,单核计算能力强,适用于多数计算密集型应用场景 ecs.sccg5.24xlarge 96核 Skylake Xeon Platinum 8163 2.5GHz 384GB 50 Gbps RDMA 高效云盘(容量可选) + SSD云盘(容量可选) CPU核数多,内存容量大,适用于内存需求较高、扩展性好的科学计算场景以及高并发的批处理场景 使用SCC实例创建E-HPC集群 创建过程 目前配备有SCC实例的可用区主要有:华东1可用区H、华东2可用区B、华北1可用区C、华北3可用区A。考虑到库存的变化,用户在创建集群之前可以通过ECS管理控制台查看SCC实例在不同可用区的分布情况。 从E-HPC管理控制台进入集群创建页面,在计算节点下划栏中勾选SCC实例。 勾选SCC注意:上图中SCC实例的CPU核数是按照vCPU数目来显示的,而实际交付的SCC实例为超线程关闭(HT off)状态,即scch5.16xlarge和sccg5.24xlarge的CPU核数分别为32物理核和48物理核。

后续创建过程请参考E-HPC集群创建与配置 硬件信息 相比于普通ECS实例,SCC实例的核心硬件升级之一在于配备了50Gbps的RoCE(RDMA over Converged Ethernet)网络,故网络信息与普通ECS实例相比有明显差异。

网络硬件信息 相比于普通ECS实例,SCC实例同时拥有10Gbps VPC网络和50Gbps RoCE网络的网口,因此在会ECS管理控制台上会同时显示两个IP地址。 SCC IP

正常的SCC实例会显示如下网口信息,其中bond0为RoCE网口,eth0为VPC网口。 SCC网口信息

网络连通性验证 同一个E-HPC集群下的SCC实例间的VPC网络IP和RoCE网络IP均可以相互ping通 同一个E-HPC集群下的SCC实例间可以通过VPC网络IP和RoCE网络IP进行ssh登陆 RoCE网络性能测试 测试RoCE网络的峰值带宽与延迟 带宽测试样例 ##读带宽测试 ib_read_bw -a -q 20 --report_gbits ##服务端compute0执行 ib_read_bw -a -q 20 --report_gbits compute0 ##用户端compute1执行 ##写带宽测试 ib_write_bw -a -q 20 --report_gbits ##服务端compute0执行 ib_write_bw -a -q 20 --report_gbits compute0 ##用户端compute1执行 延迟测试样例 ##读延迟测试 ib_read_lat -a ##服务端compute0执行 ib_read_lat -F -a compute0 ##用户端compute1执行 ##写延迟测试 ib_write_lat -a ##服务端compute0执行 ib_write_lat -F -a compute0 ##用户端compute1执行 监测RoCE网络的实际带宽利用情况 在SCC实例root用户下执行rdma_monitor -s实时获取RoCE网络信息 rdma_monitor

使用E-HPC性能监控与分析引擎集谛来监测各SCC实例RoCE网络带宽随时间的变化情况。 集谛监测RoCE

在SCC集群上编译和运行MPI程序 由于SCC实例同时支持50Gbps RoCE网络和10Gbps VPC网络,用户在执行跨节点MPI程序时可能会遇到节点间数据流量默认走VPC网口的情况,这里我们推荐用户在SCC集群上使用IntelMPI来编译和运行跨节点MPI程序。

编译跨节点MPI程序 安装IntelMPI E-HPC集成了IntelMPI 2018版本,用户只需在E-HPC控制台集群创建或软件管理功能界面中勾选IntelMPI 2018进行安装即可。

intelmpi

配置MPI环境变量 方法一:使用E-HPC集成的Module管理工具 $ module avail --------------------------------- /opt/ehpcmodulefiles -------------------------------- intel-mpi/2018 $ module load intel-mpi/2018 $ which mpicc /opt/intel/impi/2018.3.222/bin64/mpicc 方法二:执行IntelMPI自带的环境变量配置脚本 $ source /opt/intel/compilers_and_libraries/linux/bin/compilervars.sh intel64 $ which mpicc /opt/intel/impi/2018.3.222/bin64/mpicc 设置MPI编译参数 完成MPI环境变量配置后,需要在软件Makefile或预编译脚本中指定MPI编译器的相对/绝对路径,然后执行编译过程。

-DCMAKE_C_COMPILER=mpicc -DCMAKE_CXX_COMPILER=mpicxx 运行跨节点MPI程序 对于在E-HPC软件环境中采用IntelMPI编译的软件,提交任务时无需额外指定网口参数,便可以直接通过RoCE网络进行跨节点数据通信。 #!/bin/sh #PBS -j oe #PBS -l select=:ncpus=:mpiprocs= module load intel-mpi/2018 mpirun 对于在用户本地环境编译的软件或预编译的商用软件,可以在提交MPI任务时指定RoCE网卡信息来避免可能出现的数据流量不走RoCE网络或网卡设备not found等问题。 #!/bin/sh #PBS -j oe #PBS -l select=:ncpus=:mpiprocs= export I_MPI_FABRICS=shm:dapl module load intel-mpi/2018 mpirun -genv I_MPI_DAPL_PROVIDER ofa-v2-mlx5_bond_0 用户可以使用集谛性能监测功能对SCC实例的CPU利用率、访存带宽、RoCE网络带宽等性能数据进行实时监测。 SCC性能

linux做网卡bond,linux下设置网卡bond相关推荐

  1. linux 实时 网口 速率_linux 下查看网卡工作速率-阿里云开发者社区

    [root@hadoop058 ~]# mii-tool eth0: negotiated 100baseTx-FD, link ok 100M linux 下查看网卡工作速率 Ethtool是用于查 ...

  2. Linux系统设置三台静态IP,设置网卡,连接Xshell配置映射及免密

    一.设置静态IP 打开虚拟机 查看虚拟机网段 (编辑-->虚拟网络编辑器-->) 设置网段                                                 ...

  3. linux 单网卡 路由,CentOS下双网卡单网关路由配置

    CentOS下双网卡单网关路由配置 假定主机的网卡1的IP地址为:219.223.244.233/21,网卡2的IP地址为:219.223.242.216/21单网为:219.223.240.1(这里 ...

  4. Linux下设置网卡开机自启动

    每次开机后都要用 ifup eth0 命令 启动网卡,想着怎么可以开机自动启动网卡,于是就法百度了一下,方法如下: 方法一: 编辑网卡配置文件 vi /etc/sysconfig/network-sc ...

  5. linux网卡rss支持,ETHTOOL设置网卡接收哈希(RSS)

    ethtool命令设置接收端哈希功能,按照哈希结果将数据流分发到网卡的不同接收队列中.例如以下命令,指定ipv4的tcp数据流中参与哈希的字段(sdfn): / # ethtool --config- ...

  6. linux做伪分布时ip设置,Linux下伪分布模式的Hadoop部署

    伪分布模式也是在一台单机上运行,但用不同的 Java 进程模仿分布式运行中的各类结点 ( NameNode, DataNode, JobTracker, TaskTracker, Secondary ...

  7. Linux网卡固件,CentOS下X710网卡升级驱动和固件脚本 | 聂扬帆博客

    对于CentOS7.1和7.5版本,安装X710网卡的驱动和固件版本太低,使用会有问题.这边整理了一份脚本自动检测安装,脚本会判断是否是DELL的几款机型,因为DELL机型的驱动和固件不能使用inte ...

  8. linux设置网卡为桥接模式,设置网卡桥接模式

    一  真实机上配置 1/ 备份网卡 cp -rap ifcfg-eth0 bak.ifcfg-eth0 2/新的桥接网卡使用eth0的配置文件 cp -rap ifcfg-eth0 ifcfg-br3 ...

  9. linux做子域dns,Linux下的DNS服务器配置实践(三)-子域授权、转发、视图

    [子域授权] [实验说明]:新增一台服务器ip为192.168.0.112,配置成为test.com子域(a.test.com)的主DNS [实验验证]:子域可以实现自我管理,通过父域DNS可以查询解 ...

最新文章

  1. OC-变量和数据类型
  2. Python——七段数码管绘制
  3. .NetCore Cap 结合 RabbitMQ 实现消息订阅
  4. 2017西安交大ACM小学期数论 [等差数列]
  5. win主机ping不通linux的IP
  6. 开发人员,请爱护你的身体
  7. python判断字符_Python判断字符串是否为字母或者数字(浮点数)
  8. 终面后拿offer几率_战绩 | 恭喜VIP学员斩获德勤(北京)风险分析师全职Offer!...
  9. Java字符串首字母大写
  10. mysql中url的格式_MySQL JDBC URL中的格式以及参数介绍
  11. App.config配置详解
  12. 大话量子通信丨赠书名单公示
  13. Zotero英文翻译插件安装教程
  14. 80端口为什么要备案_成都为什么要登记icp备案需要多久
  15. 怎样用计算机玩CS,电脑建立局域网玩cs的三种方法
  16. 研究生发论文的流程?
  17. 解决笔记本连接wifi提示无法连接这个网络问题
  18. 对动量守恒定律的质疑
  19. 整合stripe线上支付收款
  20. 最全的开源DDS中间件-FastDDS

热门文章

  1. Centos配置yum为阿里源
  2. detach detach_ pytorch
  3. 半导体与智能汽车行业解决方案
  4. 有了NPU,还要DSP吗?
  5. CodeGen API分析
  6. 视频动作定位的分层自关注网络:ICCV2019论文解析
  7. ValueError: urls must start with a leading slash
  8. Android 标签 (FlexboxLayout实现标签)
  9. buildConfigField 使用
  10. JAVA中获取当前系统时间