SGE:作业调度系统安装和使用简要说明
主要有三部分:
apt-get update
adduser gsadmin --uid 500 #pass cool
wget http://downloads.sourceforge.net/project/gridscheduler/GE2011.11p1/GE2011.11p1.tar.gztar -zxvf GE2011.11p1.tar.gz
mv GE2011.11p1 /home/gsadmin/
chown -R gsadmin:gsadmin /home/gsadmin/##Setup NFS Server on Master Host
apt-get install nfs-kernel-server##may be /etc/exports: Permission denied
echo "/home/gsadmin *(rw,sync,no_subtree_check)" >> /etc/exports
exportfs -a
service nfs-kernel-server restart##Setup OpenJDK-8 On Master Node
apt-get install openjdk-8-jdk
##setting jdkecho "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/" >> ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/echo "export PATH=$PATH:/usr/lib/jvm/java-8-openjdk-amd64/bin" >> ~/.bashrcexport PATH=$PATH:/usr/lib/jvm/java-8-openjdk-amd64/binecho "export SGE_ROOT=/home/gsadmin/GE2011.11p1" >>~/.bashrcexport SGE_ROOT=/home/gsadmin/GE2011.11p1/export PATH=$PATH:~/GE2011.11p1/bin/linux-x64:$SGE_ROOT##server
ssh-keygen##if no ssh install openssh-server####Open Grid Scheduler/Grid Engine Installation
#Server
cd /home/gsadmin/GE2011.11p1/source/clients/gui-installer/templates/
./start_gui_installer.sh
##OR
##delete package and config: sudo apt-get --purge remove gridengine-master
##or sudo aptitude purge gridengine-master
apt-get install gridengine-master
配置
#假设主机是 master01; 第一句的两个gsadmin 分别代表是用户和用户组,为了方便起了一样的名字#把用户gsadmin加到组gsadmin里面
qconf -au gsadmin gsadmin
#把主机加到提交主机里面
qconf -as master01
qconf -ahgrp @allhosts # just save the file without modifying it
#Add an execution host:把主机加到执行主机里面
qconf -aattr hostgroup hostlist master01 @allhosts
qconf -aq main.q # just save the file without modifying it
#Add the host group to the queue:把主机组加到队列里面
qconf -aattr queue hostlist @allhosts main.q
# 4 by default for all nodes, 3 specifically for master01, which leaves 1 of the 4 cpus free for the master process
qconf -aattr queue slots "4, [master01=3]" main.q
增加hosts
sudo vim /etc/hosts#例如如下 其中 slave01 是主机master,其他是client
202.116.161.100 slave01
114.113.126.32 coolb-PowerEdge-R730
192.168.68.39 hp2
192.168.68.40 gcxyb
192.168.68.42 hp1
结点配置
apt-get install gridengine-client gridengine-qmon gridengine-exec #gridengine-master会弹出框需要填写一些信息
注意填写master为对应的master主机即可,其他可以默认。
填写完之后需要重新启动exec#重启服务
ps aux |grep sge
sudo /etc/init.d/gridengine-exec restart
配置:
#加入主机队列 hp1是client,假设为当前配置的机器
qconf -ah hp1 cool3-PowerEdge-T130#加入提交队列
qconf -as hp1# 把客户端节点加进去到hostlist里面
qconf -aattr hostgroup hostlist hp1 @allhosts
#或者直接编辑配置
qconf -shgrpl #显示已存在的主机组
qconf -mhgrp @allhosts #配置(修改)一个主机组,@allhosts是默认的主机列表,根据查看到的修改
1. 投递任务到指定队列main.q
方法一: qsub -cwd -l vf=*G -q main.q *.sh
方法二: qsub -cwd -S /bin/bash -l vf=*G -q main.q *.sh
-cwd 表示在当前路径下投递,sge的日志会输出到当前路径。
-l vf=*G 任务的预估内存,内存估计的值应稍微大于真实的内存,内存预估偏小可能会导致节点跑挂。
-q 指定要投递到的队列,如果不指定的话,SGE会在用户可使用的队列中选择一个满足要求的队列。
注: 方法一和方法二都可以投递任务到指定队列,但是方法一可能会输出警告信息“Warning: no access to tty (Bad file descriptor). Thus no job control in this shell.” 这是因为SGE默认使用的是tcsh,而*.sh使用的是bash,所以应该在投递的时候指明命令解释器。若非要使用方法一的话,可以在脚本*.sh的开头加上#$ -S /bin/bash。
2. 投递任务到指定节点
qsub -cwd -l vf=*G -l h=node1 *.sh
qsub -cwd -l vf=*G -l h=node1 -P project -q main.q *.sh
-P 参数指明任务所属的项目
3. 查询任务
qstat -f /qstat 查看所有任务
qstat -j jobId 按任务id查看
qstat -u user 按用户查看
任务状态:
qw 表示等待状态
Eqw 投递任务出错
r 表示任务正在运行
dr 节点挂了之后,删除任务就会出现这个状态,只有节点重启之后,任务才会消失
4. 删除任务
qdel -j 1111 删除任务号为1111的任务
5. 其他命令
qrsh 与qsub相比,是交互式的投递任务,注意参数:
-now yes|no 默认设置为yes
若设置为yes,立即调度作业,如果没有可用资源,则拒绝作业,任务投递失败,任务状态为Eqw。
若设置为no,调度时如果没有可用资源,则将作业排入队列,等待调度。
例子: qrsh -l vf=*G -q all.q -now no -w n *sh
qacct 从集群日志中抽取任意账户信息
qalter 更改已提交但正处于暂挂状态的作业的属性
qconf 为集群和队列配置提供用户界面
qhold 阻止已提交作业的执行
qhost 显示SGE执行主机(即各个计算节点)的状态信息
qlogin 启动telnet或类似的登录会话。
6. bash脚本与Linux环境变量
为了防止脚本运行时找不到环境变量,在投递的bash脚本的前面最好加上以下两句话:(原因见1)
#! /bin/bash
#$ -S /bin/bash
7.使用grid最好切换到gsadmin用户下,因为集群里每一台服务器的gsadmin目录都通过nfs挂载了master的gsadmin。所有服务器都共享master(cool4)的gsadmin目录
SGE:作业调度系统安装和使用简要说明相关推荐
- 作业调度系统--SGE和PBS的使用方法
SGE 1)过程 2)用法 qstat 参数 注释 -u username # -j jobID # -q queue # qacct qhost # show the status of Grid ...
- PXE无人值守系统安装配置简要说明
0.关闭防火墙: #iptables -F 或 #service iptables stop ===================================================== ...
- 系统安装相关:U盘刻录(用U盘装ubuntu简要方法)
现在感觉重装系统很方便的,可以用U盘做pe系统装,当然也可以用原始的光盘文件,但是随着越来越多的便携式电脑取消安装光驱,光盘装系统的方法就不能用了,特别是对于ubuntu等不太适合用pe装的iso镜像 ...
- TensorFlow学习笔记(一)--windows系统安装配置
1.关于Tensorflow 国际惯例,先来个总体的简要介绍,摘自一个很强大的TensorFlow中文学习网站(http://www.tensorfly.cn/)的简介 TensorFlow™ 是一个 ...
- Linux(一) 概述 、 系统安装与分区
一.概述 简要介绍 Linux内核最初是由芬兰人李纳斯·托瓦斯在赫尔辛基大学上处于个人爱好编写的. Linux是一套免费使用和自由传播的类Unix操作系统 , 是一个 基于 POSIX和UNIX的多用 ...
- 简要安装FreeBSD 6.2及配置桌面环境[zz]
简要安装FreeBSD 6.2及配置桌面环境[zz]June 25th, 2007 这里的安装过程其实也很简单,在这里我不打算讲解虚拟机 vmware 上的安装(因为和实际的环境相差不大.同时,这个安 ...
- Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度
现代互联网数据中心的规模随着应用服务需求的快速增长而不断扩大,但服务器资源利用率却一直很低,导致企业基础设施成本不断上涨.随着云原生技术的发展,混合部署成为了降低成本的一大手段.本文结合华为CCE团队 ...
- 服务器系统安装报价,服务器系统安装费用
服务器系统安装费用 内容精选 换一换 该任务以"Windows Server 2008 R2 64位"操作系统为例,指导用户安装Windows操作系统.由于镜像文件不同,安装步骤稍 ...
- 怎样安装win服务器系统,win服务器系统安装教程
win服务器系统安装教程 内容精选 换一换 SAP B1快速部署方案如图1所示.说明如下:VPC网络:为了保证网络的安全,SAP B1系统中所有节点在一个VPC网络内,且所有节点应属于同一个AZ(Av ...
最新文章
- js日期格式化Date
- Open Train 10394
- 【DevCloud · 敏捷智库】Scrum和看板如何选择
- Maven使用注解配置SQL映射器(@Select,@Insert,@Update,@Delete)
- 小米路由器3无线网连接到服务器,小米路由器3怎么连接硬盘
- 如何写一份成功的商业计划书
- pdn阻抗测试_阻抗测试基础(超详细,安捷伦工程师力作)(上篇)
- 从命令行安装Deb文件的5种方法
- 火狐浏览器设置代理后出现“建立安全连接失败”问题的解决(由multisim引起
- 完美解决35dir获取网站缩略图问题(两种方法)
- 随着年龄增长,我应该怎样对抗肌肉流失?
- Apifiny任命FBI前高管Timothy Murphy为董事会成员,帮助公司完成上市计划
- 电气器件系列十六:热电偶、热电阻
- (基础知识)单反镜头的参数辨别
- CISCO数据中心虚拟化之VSS技术和配置
- Arduino 播放音乐教程
- 海关外贸企业大数据风控平台产品应用
- 【Python爬虫学习】一、Request
- 经典的网站反爬手段(超实用)
- 编写Java程序,使用 Socket类模拟用户加入 QQ 群时,QQ 小冰发送欢迎消息的场景(用户充当客户端,QQ 小冰充当服务端)
热门文章
- 微信小程序系列2——小程序页面渲染和逻辑的关系
- echarts省级地图展示(包含3D地图)
- 赵小楼《天道》《遥远的救世主》深度解析(65)实事求是的辩证思维(应试教育学不到的思维)
- OpenCV——图像处理入门:膨胀与腐蚀、图像模糊、边缘检测
- 虚拟主播怎么做出来的?今日安利:AI虚拟人物怎么弄?
- 常见的agv控制系统及功能有哪些?
- Ubuntu X86编译安装Gstreamer nvenc插件(硬件编码)
- python添加元素到数组开头_python添加元素到数组开头_Python语法总结(纯干货)...
- 三星优化器 适用于绝大部分安卓手机 超级好用!!
- C++11特性《 右值引用-<完美转发>、lambda表达式》