云计算事业部高性能集群使用手册
 -----------------------------------------

1 系统及其使用简介

1.1 集群结构

  1. 登陆节点:用于作业提交,作业查询
  2. 编译节点:仅提供编译服务、安装应用程序服务和测试代码。无法联网和提交作业
  3. ftp节点:数据传输
  4. 计算节点:用于实际的高性能计算
  5. 胖节点:内存较高、核数较多,属于特殊的计算节点

1.2 注意事项

  1. 登陆节点对用户可使用的内存和进程数等都进行了限制,用户不可以在登陆节点做编译和大文件的解压、传输等操作(因为运算会导致登陆节点变慢,进而妨碍到其他用户的登陆)。尤其数据传输请通过ftp节点完成。
  2. 编译节点需用户先登录登陆节点后,才能切换到编译节点,切换命令:ssh v3-build1
  3. 用户无法登录计算节点,仅通过提交任务的方式使用计算节点
  4. 大量文件的拷贝请通过提交作业完成

1.3 网络地址

节点名称 IP地址 端口号
登录节点 124.127.245.49 22
ftp节点 114.251.219.74 21

1.4 软件安装

登陆节点,编译节点和各计算节点均安装了 Suse Enterprise Linux 11.1 操作系统,各计算节点和编译节点均安装了MPI库和编译器及部分常用软件。

由于没有root权限,推荐使用conda进行安装软件:

  1. conda软件公共位置:/share/software/anaconda/anaconda3_py37/
echo PATH=$PATH:/share/software/anaconda/anaconda3_py37/bin >> ~/.bashrc
source ~/.bashrc
  1. 推荐仅使用计算中心本地源,本地源会不定时更新
conda config --add channels http://192.168.30.67:8080/main
conda config --add channels http://192.168.30.67:8080/r
conda config --add channels http://192.168.30.67:8080/bioconda
#此步骤注释掉conda的默认源以加快载入速度
sed -i s/\-\ defaults/\#\-\ defaults/ ~/.condarc
  1. 以安装RNAseq常用软件为例,conda安装软件运行以下代码
# conda install bioconda软件名
conda install sra-tools fastqc hisat2 samtools htseq

2 LSF作业调度系统

大规模超级计算系统,为了有效利用多处理核心所提供的计算能力,需要一个作业管理系统,统一跟用户交互,接收提交的各类计算任务,合理分配计算资源,将用户作业指派到具体的节点执行。北京市计算中心计算平台使用的作业管理系统是 IBM 的 LSF 作业管理系统,通过 ssh 远程登陆北京市计算中心的集群,然后通过LSF作业管理系统提交作业。

2.1 提交作业

2.1.1 生物信息分析作业提交语法–bsub

  1. 必选参数
-q 队列名称
-n 调用核数
  1. 可选参数
-I 交互模式,作业将输出到交互窗口
-m 队列中的节点名称
-o 输出日志文件名称
-e 输出错误日志
%J 用于调用作业号
  1. 示例
#提交一个查看根目录的命令,返回结果在ls.log
bsub -q bioblade -n 1 -o ls.log "ls /"

2.1.2管理作业和监控作业状态的常用命令

由于用户不能登陆计算节点,无法直接查看作业的进程信息。用户可以通过以下几种方法提交作业和查看作业信息。

  1. 查看作业状态: bjobs

显示信息分别为:

| 英文显示 | 中文对照 |
 | -------- | -------- |
 JOBID  | 作业号 
 USER  | 用户名
 STAT  | 作业状态
 QUEUE | 队列名
 FROM_HOST |提交作业的节点名
 EXEC_HOST |执行作业的节点
 JOB_NAME | 作业名
 SUBMIT_TIME |  提交作业时间
   
  
   
   作业状态:RUN 正在执行,PEND 作业被挂起,这种情况常常是因为队列满或者用户已达到其最大使用核数在排队,DONE 作业正常结束,EXIT 作业异常退出(程序运行出错或用户自行杀死)。

bjobs    -a  查看所有的作业,包括最近结束的。
   bjobs    -l 作业号,查看作业的详细信息,包括何时运行,运行目录,执行节点等。

  1. 删除作业:bkill  作业号
      shell   # 取消115166号作业   bkill 115166    #  删除当前用户全部任务   bkill 0

  2. bqueues 查看队列信息
       bqueues                    不加参数可以查看全部队列
       bqueues 队列名        可以查看队列信息
       bqueues –u 用户名   可以查看该用户的队列权限

  3. bhosts
       bhosts 节点名         可看后台节点信息,该信息主要表明节点是否可以跑新的任务 (状态 ok 表示可加载作业;closed 表示不能加载作业(一般是 cpu 核数已被作业占满,或者被管理员 close);unavail 表示节点未开机或 lsf 进程未启动;unreached 表示 LSF 进程出错,该节点不可用。不指定节点名时会显示所有节点的信息)

  4. lsload

lsload 节点名    查看后台节点的负载(通常 r15s 反映的是最近 15 秒该节点运行的线程或进程数,如果作业被加载以后,r15s 的值较小
   (明显小于该节点运行作业使用的核数),则该节点的作业可能未被正常加载。mem 表示可用的内存。)

  1. myquota

用于查看当前用户磁盘配额及使用情况

3 远程连接教程

3.1 远程登陆

登陆 IP:124.127.245.49。如果使用 linux 操作系统可在终端下直接 ssh 登陆,例如:ssh username@124.127.245.49 如果使用 windows 操作系统则需要使用 ssh 客户端登陆。常用的 ssh 客户端有 :Putty,下载地址: http://www.chiark.greenend.org.uk/~sgtatham/putty/download.html其他的 ssh 客户端有xshell,openssh 等。

以 putty 为例:

  1. 输入要登陆主机的 IP,选择连接类型 ssh:
  2. 弹出提示输入密码界面:
  3. 输入用户帐户密码(密码输入过程不显示任何输入):
  4. 完成登陆。

3.2 数据下载

可以使用任何 ftp 客户端软件(要支持 sftp),如 filezlia,winscp 等。

以 filezlia 为例(下载地址:https://filezilla-project.org/)为例可以如下设置:

4 常见问题

4.1 如何登录到编译节点?

编译节点为v3-build1,系统为CentOS6.5。在队列执行的任务, 若涉及到编译程序,须在 v3-build1 中执行。编译节点无法上网。

登陆 v3-build1 时,先登录到登陆节点,然后执行 ssh v3-build1 即可。

4.2 登陆后乱码怎么办?

临时解决方法:直接在终端输入 LANG=””,不过开启新的终端时候需要重新输入。永久解决方法:把命令 export LANG=””,添加到~/.profile 文件中,重新登录即可。中文乱码可以在 putty 中设定 translation->UTF-8:

4.3 如何修改登陆密码?

用户得到得到登陆帐号和初始密码后应及时修改。可以使用 passwd 命令直接修改,先输入原密码,再输入两次新密码。输入新密码时不要过于简单。

4.4 如何查看用户可使用的最大 CPU 核数?

使用 busers 命令查看,输出结果如下:

MAX 对应的就是用户可使用的最大 CPU 核数。

4.5 如何查看用户可使用的队列?

开通帐户时业务人员会告知,也可使用命令查看:bqueues  -u  username(账户名) ,会输出可使用的队列。

4.6 MPI 的路径?

不同的 mpi 库都安装在/usr/mpi/gcc 目录下,进入编译节点,ls   /usr/mpi/gcc就可以看到了。

4.7 如何判断自己的程序是并行还是串行程序?

目前,在并行计算领域内,主要的并行编程模型有三类模型:数据并行、消息传递、共享变量。

其中基于消息传递的 MPI 编程模型和基于共享变量的 OpenMP/Pthread 编程模型是最为流行的并行编程模型。Openmp 比较简单,用于单机多 CPU/多核并行。MPI 较为复杂,有时需要从基本设计思路上重写整个程序,涉及到局域网通信这一不确定的因素。我们拿到一个软件,首先看它的使用说明,如果需要用 mpirun 运行的都属于 MPI 并行程序。否则,都属于串行程序或单机多线程程序。

云计算事业部高性能集群使用手册相关推荐

  1. 曙光高性能集群系统管理员手册(链接)

    https://max.book118.com/html/2018/0106/147631356.shtm

  2. 高性能集群软件Keepalived之基础知识篇

    一.Keepalived介绍 Keepalived是Linux下一个轻量级的高可用解决方案,它与HeartBeat.RoseHA实现的功能类似,都可以实现服务或者网络的高可用,但是又有差别:Heart ...

  3. 构建一个LVS-DR模型的高性能集群,并实现Nginx、PHP、MySQL分离

    搭建一个LVS-DR模型的高性能集群,并实现以下功能: (1).wordpress程序通过nfs共享给个个realserver: (2).后端realserver中的nginx和php分离: 网站架构 ...

  4. CentOS下部署Hadoop高性能集群

    目录: •Hadoop 概述 •实战1:部署Hadoop高性能集群 Hadoop是什么 Hadoop是Lucene创始人Doug Cutting,根据Google的相关内容山寨出来的分布式文件系统和对 ...

  5. 基于开源软件构建高性能集群NAS系统

    大数据时代的到来已经不可阻挡,面对数据的爆炸式增长,尤其是半结构化数据和非结构化数据,NoSQL存储系统和分布式文件系统成为了技术浪潮,得到了长足的发展.非结构化数据目前呈现更加快速的增长趋势,IDC ...

  6. 单点故障的解决方案:高性能集群

    提出问题 1.一个服务发生故障,如何解决? 2.备用节点和原服务是什么关系? 3.高性能集群如何检测一台机器发生故障? 4.如何使另一台机器快速上线? 5.高性能集群的应用场景? 高可用性集群用于避免 ...

  7. 基于Infiniband高性能集群硬件配置方案

       摩尔定律的一再验证残酷的揭示了一个现实:速度是技术发展的终极目标.高性能计算领域也是一样,如何使高性能计算平台运行的更快.更高效一直是服务器厂商研究的方向,曙光作为中国高性能计算的领头羊,作为高 ...

  8. 曙光TC2600高性能集群助力中国医科院

    本文讲的是曙光TC2600高性能集群助力中国医科院,随着社会经济的发展,各行各业对信息化的需求已经越来越白热化,特别是生物医疗行业对高性能计算的迫切需求变得日益突出.近年来随着国家对医疗卫生事业的重视 ...

  9. Linux搭建hadoop高性能集群(一)

    文章目录 关于此篇(题外话) Linux系统搭建hadoop高性能集群(一) 第一步 虚拟机的安装 第二步 创建一个虚拟机 第三步 虚拟机启动初始化 第四步 虚拟机克隆 第五步 Linux系统网络配置 ...

最新文章

  1. java 线程池配置与CPU关系
  2. 机器学习之单变量线性回归
  3. 【UML】状态图Statechart diagram(转)
  4. 计算机考研问题,考研计算机常见的6个问题
  5. 动态数据源切换--AbstractRoutingDataSource
  6. 解决ubuntu下arduino IDE的Serial Port无法选择问题
  7. Hbase数据模型入门
  8. ExtJs基础知识总结:自定义弹窗和ComboBox自动联想加载(四)
  9. 12.深入分布式缓存:从原理到实践 --- 社交场景架构进化:从数据库到缓存
  10. android 深色主题背景适配原理剖析
  11. java笔记--关于int和byte[]的转换
  12. babylon101| 09. Intersect Collisions - mesh(网格交叉碰撞)
  13. kubectl cordon 标记节点不可部署Pod SchedulingDisabled uncordon 取消标记
  14. 1262: 魔法宝石 (“玲珑杯”河南工业大学ACM程序设计大赛)
  15. Android H5页出现广告分析和解决方案
  16. Electron 使用Pepper Flash插件
  17. 2018年9月22日提高组模拟赛 T1 遨游
  18. mysql怎么创建和调用out参数的存储过程
  19. angularjs修改html标签,angularjs sanitize+ng-bind-html内置指令做html标签转义
  20. 禁用Winrar的弹窗广告

热门文章

  1. 2019,flutter推流
  2. TS-修饰符 与 static
  3. 方程的近似解c语言程序,C语言实现二分法(方程近似解)
  4. C++使用 自定义函数 判断素数
  5. 贝叶斯分类器以及Python实现
  6. HaaS UI小程序解决方案基础教学之二: 搭建第一个UI页面
  7. 最长递增子序列问题 nyoj 17单调递增最长子序列 nyoj 79拦截导弹
  8. 《朱赟的技术管理课》核心笔记
  9. 【Python】爬取金庸射雕英雄传连载版以及金庸作品里所有江湖门派
  10. 教科书般的亵渎(dfs)