云计算事业部高性能集群使用手册
云计算事业部高性能集群使用手册
-----------------------------------------
1 系统及其使用简介
1.1 集群结构
- 登陆节点:用于作业提交,作业查询
- 编译节点:仅提供编译服务、安装应用程序服务和测试代码。无法联网和提交作业
- ftp节点:数据传输
- 计算节点:用于实际的高性能计算
- 胖节点:内存较高、核数较多,属于特殊的计算节点
1.2 注意事项
- 登陆节点对用户可使用的内存和进程数等都进行了限制,用户不可以在登陆节点做编译和大文件的解压、传输等操作(因为运算会导致登陆节点变慢,进而妨碍到其他用户的登陆)。尤其数据传输请通过ftp节点完成。
- 编译节点需用户先登录登陆节点后,才能切换到编译节点,切换命令:ssh v3-build1
- 用户无法登录计算节点,仅通过提交任务的方式使用计算节点
- 大量文件的拷贝请通过提交作业完成
1.3 网络地址
节点名称 | IP地址 | 端口号 |
---|---|---|
登录节点 | 124.127.245.49 | 22 |
ftp节点 | 114.251.219.74 | 21 |
1.4 软件安装
登陆节点,编译节点和各计算节点均安装了 Suse Enterprise Linux 11.1 操作系统,各计算节点和编译节点均安装了MPI库和编译器及部分常用软件。
由于没有root权限,推荐使用conda进行安装软件:
- conda软件公共位置:/share/software/anaconda/anaconda3_py37/
echo PATH=$PATH:/share/software/anaconda/anaconda3_py37/bin >> ~/.bashrc
source ~/.bashrc
- 推荐仅使用计算中心本地源,本地源会不定时更新
conda config --add channels http://192.168.30.67:8080/main
conda config --add channels http://192.168.30.67:8080/r
conda config --add channels http://192.168.30.67:8080/bioconda
#此步骤注释掉conda的默认源以加快载入速度
sed -i s/\-\ defaults/\#\-\ defaults/ ~/.condarc
- 以安装RNAseq常用软件为例,conda安装软件运行以下代码
# conda install bioconda软件名
conda install sra-tools fastqc hisat2 samtools htseq
2 LSF作业调度系统
大规模超级计算系统,为了有效利用多处理核心所提供的计算能力,需要一个作业管理系统,统一跟用户交互,接收提交的各类计算任务,合理分配计算资源,将用户作业指派到具体的节点执行。北京市计算中心计算平台使用的作业管理系统是 IBM 的 LSF 作业管理系统,通过 ssh 远程登陆北京市计算中心的集群,然后通过LSF作业管理系统提交作业。
2.1 提交作业
2.1.1 生物信息分析作业提交语法–bsub
- 必选参数
-q 队列名称
-n 调用核数
- 可选参数
-I 交互模式,作业将输出到交互窗口
-m 队列中的节点名称
-o 输出日志文件名称
-e 输出错误日志
%J 用于调用作业号
- 示例
#提交一个查看根目录的命令,返回结果在ls.log
bsub -q bioblade -n 1 -o ls.log "ls /"
2.1.2管理作业和监控作业状态的常用命令
由于用户不能登陆计算节点,无法直接查看作业的进程信息。用户可以通过以下几种方法提交作业和查看作业信息。
- 查看作业状态: bjobs
显示信息分别为:
| 英文显示 | 中文对照 |
| -------- | -------- |
JOBID | 作业号
USER | 用户名
STAT | 作业状态
QUEUE | 队列名
FROM_HOST |提交作业的节点名
EXEC_HOST |执行作业的节点
JOB_NAME | 作业名
SUBMIT_TIME | 提交作业时间
作业状态:RUN 正在执行,PEND 作业被挂起,这种情况常常是因为队列满或者用户已达到其最大使用核数在排队,DONE 作业正常结束,EXIT 作业异常退出(程序运行出错或用户自行杀死)。
bjobs -a 查看所有的作业,包括最近结束的。
bjobs -l 作业号,查看作业的详细信息,包括何时运行,运行目录,执行节点等。
删除作业:bkill 作业号
shell # 取消115166号作业 bkill 115166 # 删除当前用户全部任务 bkill 0
bqueues 查看队列信息
bqueues 不加参数可以查看全部队列
bqueues 队列名 可以查看队列信息
bqueues –u 用户名 可以查看该用户的队列权限bhosts
bhosts 节点名 可看后台节点信息,该信息主要表明节点是否可以跑新的任务 (状态 ok 表示可加载作业;closed 表示不能加载作业(一般是 cpu 核数已被作业占满,或者被管理员 close);unavail 表示节点未开机或 lsf 进程未启动;unreached 表示 LSF 进程出错,该节点不可用。不指定节点名时会显示所有节点的信息)lsload
lsload 节点名 查看后台节点的负载(通常 r15s 反映的是最近 15 秒该节点运行的线程或进程数,如果作业被加载以后,r15s 的值较小
(明显小于该节点运行作业使用的核数),则该节点的作业可能未被正常加载。mem 表示可用的内存。)
- myquota
用于查看当前用户磁盘配额及使用情况
3 远程连接教程
3.1 远程登陆
登陆 IP:124.127.245.49。如果使用 linux 操作系统可在终端下直接 ssh 登陆,例如:ssh username@124.127.245.49 如果使用 windows 操作系统则需要使用 ssh 客户端登陆。常用的 ssh 客户端有 :Putty,下载地址: http://www.chiark.greenend.org.uk/~sgtatham/putty/download.html其他的 ssh 客户端有xshell,openssh 等。
以 putty 为例:
- 输入要登陆主机的 IP,选择连接类型 ssh:
- 弹出提示输入密码界面:
- 输入用户帐户密码(密码输入过程不显示任何输入):
- 完成登陆。
3.2 数据下载
可以使用任何 ftp 客户端软件(要支持 sftp),如 filezlia,winscp 等。
以 filezlia 为例(下载地址:https://filezilla-project.org/)为例可以如下设置:
4 常见问题
4.1 如何登录到编译节点?
编译节点为v3-build1,系统为CentOS6.5。在队列执行的任务, 若涉及到编译程序,须在 v3-build1 中执行。编译节点无法上网。
登陆 v3-build1 时,先登录到登陆节点,然后执行 ssh v3-build1 即可。
4.2 登陆后乱码怎么办?
临时解决方法:直接在终端输入 LANG=””,不过开启新的终端时候需要重新输入。永久解决方法:把命令 export LANG=””,添加到~/.profile 文件中,重新登录即可。中文乱码可以在 putty 中设定 translation->UTF-8:
4.3 如何修改登陆密码?
用户得到得到登陆帐号和初始密码后应及时修改。可以使用 passwd 命令直接修改,先输入原密码,再输入两次新密码。输入新密码时不要过于简单。
4.4 如何查看用户可使用的最大 CPU 核数?
使用 busers 命令查看,输出结果如下:
MAX 对应的就是用户可使用的最大 CPU 核数。
4.5 如何查看用户可使用的队列?
开通帐户时业务人员会告知,也可使用命令查看:bqueues -u username(账户名) ,会输出可使用的队列。
4.6 MPI 的路径?
不同的 mpi 库都安装在/usr/mpi/gcc 目录下,进入编译节点,ls /usr/mpi/gcc就可以看到了。
4.7 如何判断自己的程序是并行还是串行程序?
目前,在并行计算领域内,主要的并行编程模型有三类模型:数据并行、消息传递、共享变量。
其中基于消息传递的 MPI 编程模型和基于共享变量的 OpenMP/Pthread 编程模型是最为流行的并行编程模型。Openmp 比较简单,用于单机多 CPU/多核并行。MPI 较为复杂,有时需要从基本设计思路上重写整个程序,涉及到局域网通信这一不确定的因素。我们拿到一个软件,首先看它的使用说明,如果需要用 mpirun 运行的都属于 MPI 并行程序。否则,都属于串行程序或单机多线程程序。
云计算事业部高性能集群使用手册相关推荐
- 曙光高性能集群系统管理员手册(链接)
https://max.book118.com/html/2018/0106/147631356.shtm
- 高性能集群软件Keepalived之基础知识篇
一.Keepalived介绍 Keepalived是Linux下一个轻量级的高可用解决方案,它与HeartBeat.RoseHA实现的功能类似,都可以实现服务或者网络的高可用,但是又有差别:Heart ...
- 构建一个LVS-DR模型的高性能集群,并实现Nginx、PHP、MySQL分离
搭建一个LVS-DR模型的高性能集群,并实现以下功能: (1).wordpress程序通过nfs共享给个个realserver: (2).后端realserver中的nginx和php分离: 网站架构 ...
- CentOS下部署Hadoop高性能集群
目录: •Hadoop 概述 •实战1:部署Hadoop高性能集群 Hadoop是什么 Hadoop是Lucene创始人Doug Cutting,根据Google的相关内容山寨出来的分布式文件系统和对 ...
- 基于开源软件构建高性能集群NAS系统
大数据时代的到来已经不可阻挡,面对数据的爆炸式增长,尤其是半结构化数据和非结构化数据,NoSQL存储系统和分布式文件系统成为了技术浪潮,得到了长足的发展.非结构化数据目前呈现更加快速的增长趋势,IDC ...
- 单点故障的解决方案:高性能集群
提出问题 1.一个服务发生故障,如何解决? 2.备用节点和原服务是什么关系? 3.高性能集群如何检测一台机器发生故障? 4.如何使另一台机器快速上线? 5.高性能集群的应用场景? 高可用性集群用于避免 ...
- 基于Infiniband高性能集群硬件配置方案
摩尔定律的一再验证残酷的揭示了一个现实:速度是技术发展的终极目标.高性能计算领域也是一样,如何使高性能计算平台运行的更快.更高效一直是服务器厂商研究的方向,曙光作为中国高性能计算的领头羊,作为高 ...
- 曙光TC2600高性能集群助力中国医科院
本文讲的是曙光TC2600高性能集群助力中国医科院,随着社会经济的发展,各行各业对信息化的需求已经越来越白热化,特别是生物医疗行业对高性能计算的迫切需求变得日益突出.近年来随着国家对医疗卫生事业的重视 ...
- Linux搭建hadoop高性能集群(一)
文章目录 关于此篇(题外话) Linux系统搭建hadoop高性能集群(一) 第一步 虚拟机的安装 第二步 创建一个虚拟机 第三步 虚拟机启动初始化 第四步 虚拟机克隆 第五步 Linux系统网络配置 ...
最新文章
- java 线程池配置与CPU关系
- 机器学习之单变量线性回归
- 【UML】状态图Statechart diagram(转)
- 计算机考研问题,考研计算机常见的6个问题
- 动态数据源切换--AbstractRoutingDataSource
- 解决ubuntu下arduino IDE的Serial Port无法选择问题
- Hbase数据模型入门
- ExtJs基础知识总结:自定义弹窗和ComboBox自动联想加载(四)
- 12.深入分布式缓存:从原理到实践 --- 社交场景架构进化:从数据库到缓存
- android 深色主题背景适配原理剖析
- java笔记--关于int和byte[]的转换
- babylon101| 09. Intersect Collisions - mesh(网格交叉碰撞)
- kubectl cordon 标记节点不可部署Pod SchedulingDisabled uncordon 取消标记
- 1262: 魔法宝石 (“玲珑杯”河南工业大学ACM程序设计大赛)
- Android H5页出现广告分析和解决方案
- Electron 使用Pepper Flash插件
- 2018年9月22日提高组模拟赛 T1 遨游
- mysql怎么创建和调用out参数的存储过程
- angularjs修改html标签,angularjs sanitize+ng-bind-html内置指令做html标签转义
- 禁用Winrar的弹窗广告