最近给实验室的服务器集群安装SGE,摸索了一天多,踩了好些坑,现在将其安装和配置过程记录下来,以免以后需要使用时又忘记了。

一、准备工作

  1、关闭集群中所有节点的防火墙

    #service iptables stop#chkconfig iptables off

    (centos7中命令稍有不同)

  2、关闭所有节点中的selinux

        #vi /etc/selinux/config
设置 SELINUX=disabled

  3、设置节点的机器名

      假设共有三个节点master、node1、node2,分别在三个节点上进行设置

        # vi  /etc/sysconfig/network
         设置 HOSTNAME=节点计算机名称

  4、设置hosts

      在三个节点上均进行修改

        #vi /etc/hosts192.168.1.120   master.local    master192.168.1.130    node1.local    node1192.168.1.140    node2.local    node2第一列为各节点的IP,第二列是设置的节点的域名,第三列为节点机器名。看有些博主的博文,第二列没有,有一些二三列的顺序不同,本人没有测试过结果是否有影响。

二、NIS安装和配置

  NIS是一种用户管理服务,可以在主控节点上进行用户和密码管理,其他的节点有用户登录的需求时,才到这台服务器上请求相关的帐号密码等使用者资料,而不需要在所有节点上都设置相同的用户和密码,极大方便了用户的管理。在使用SGE进行任务管理时,用户的任务可能会分配到其他节点运行,该节点如果不能识别该用户,任务就无法运行,所以必须使用NIS

  master节点安装与配置

  1、master安装必须软件

        #yum install -y rpcbind yp-tools ypserv

  2、master节点设置NIS域名

        #nisdomainname life.com#vi  /etc/rc.local
            添加 nisdomainname life.com# vi  /etc/sysconfig/network
              添加 NISDOMAIN=life.com 

  3、master节点文件配置

         #vi /etc/sysconfig/network
    添加 YPSERV_ARGS="-p 1011"#vi /etc/sysconfig/yppasswdd
添加 YPPASSWDD_ARGS="--port 1012"    #vi /etc/ypserv.conf
            替换为:dns: nofiles: 30xfr_check_port: yes* : * : shadow.byname : port * : * : passwd.adjunct.byname : port

  4、master节点启动服务并设置开机启动

  

        #service rpcbind start#service ypserv start                     #service yppasswdd start        #chkconfig rpcbind on#chkconfig ypserv on#chkconfig yppasswdd on

  5、master节点创建库

    #/usr/lib64/yp/ypinit -m

  6、master更新NIS账户和资料库

    #make -C /var/yp

  其余节点安装与配置

  1、软件安装和NIS域名设置,与master节点的安装的步骤1和2完全相同

  2、文件配置

       #cat /etc/nsswitch.conf
            设置:passwd: files nisshadow: files nisgroup:  files nishosts:  files nis dns#cat /etc/sysconfig/authconfig
设置    USENIS=yes#cat /etc/pam.d/system-auth
设置  password    sufficient    pam_unix.so sha512 shadow nis nullok try_first_pass use_authtok#cat /etc/yp.conf
设置  domain life.com(这里为NIS域名) server 192.168.1.120(master节点的IP)        

  3、启动NIS并设置开机启动

        #service rpcbind start#service ypbind start         #chkconfig rpcbind on#chkconfig ypbind on

  4、测试与master节点能否正常通讯

        #yptest

  5、回到master节点进行NIS账户同步

        #/usr/lib64/yp/ypinit -m#make -C /var/yp#make -C /var/yp passwd

三、NFS安装

  NSF是一种文件共享服务,安装NFS是为了方便SGE在不同节点的安装,有了NFS后就不需要在每一个节点都下载一个SGE

  NFS服务端

  1、安装软件

    #yum -y install nfs-utils

  2、启动NFS服务并设置开机启动

       #service nfs start#chkconfig nfs on

  3、文件配置,设置共享目录

        #vi /etc/exports/SGE    192.168.1.120/24(insecure,rw,root_squash,async)

  4、重启rpcbind和NFS

        #service rpcbind restart #service nfs restart

  NFS客户端

  1、安装软件,启动服务并设置开机启动,与上述的服务端安装步骤1和2完全相同

  2、新建目录 /SGE(最好与服务端的目录完全相同,更加方便)、进行挂载

    #mkdir /SGE#mount -t nfs 192.168.1.160:/SGE     /SGE        如果挂载时出现该目录忙的错误信息,说明你进入了该目录,需要退出去才能挂载

  3、查看是否挂载成功

    #mount |grep /SGE

  4、设置开机自动挂载

    #vi /etc/fstab添加192.168.1.160:/SGE     /SGE            nfs    defaults     0 0

四、SGE安装和配置

  master节点配置

  1、安装必须的软件

    #yum -y install epel-release jemalloc-devel openssl-devel ncurses-devel pam-devel libXmu-devel hwloc-devel hwloc hwloc-libs java-devel javacc ant-junit libdb-devel motif-devel csh ksh xterm db4-utils perl-XML-Simple perl-Env xorg-x11-fonts-ISO8859-1-100dpi xorg-x11-fonts-ISO8859-1-75dpi

  2、下载SGE并解压

    #wget http://arc.liv.ac.uk/downloads/SGE/releases/8.1.9/sge-8.1.9.tar.gz#tar zxvf sge-8.1.9.tar.gz

  3、安装SGE

  #cd sge-8.1.9/source/#sh scripts/bootstrap.sh && ./aimk && ./aimk -man#export SGE_ROOT=/SGE/gridengine && mkdir $SGE_ROOT#./scripts/distinst -local -allall -libs -noexit

  4、创建sgeadmin用户和组,并设置权限

  #groupadd -g 490 sgeadmin#useradd -u 495 -g 490 -r -m -c "SGE Admin" sgeadmin  #chown -R sgeadmin.sgeadmin /BiO/gridengine

  5、配置sge_qmaster

  #cd $SGE_ROOT#./install_qmaster  之后一直回车即可  #cp /SGE/gridengine/default/common/settings.sh /etc/profile.d/  #source /etc/profile.d/settings.sh

  6、开启任务调度信息收集

  #vi /SGE/gridengine/default/common/sched_configuration    设置:    schedd_job_info true

  7、启动SGE管理

  #/etc/init.d/sgemaster.xxx restart  xxx为安装过程中设置的名称

  8、将master节点加入到运行节点中

  #cd $SGE_ROOT#./install_execd  一直回车即可  #/etc/init.d/sgeexecd.xxx start

  9、添加node1和node2节点

  #qconf -ah node1#qconf -ah node2

  运行节点配置,以node1为例

  1、创建sgeadmin用户和组

  #groupadd -g 490 sgeadmin#useradd -u 495 -g 490 -r -m -c "SGE Admin" sgeadmin

  2、配置

  #export SGE_ROOT=/SGE/gridengine#cd $SGE_ROOT#./install_execd  一直回车即可#cp /SGE/gridengine/default/common/settings.sh /etc/profile.d/  #source /etc/profile.d/settings.sh

  3、开启运行节点

  # /etc/init.d/sgeexecd.xxx start

问题:(1)如果配置sge管理节点时报PID错误,说明你多次配置了sge管理节点,进程被占用了,需要将该进程先结束掉,再进行管理节点的配置

   (2)配置运行节点时遇到sge_shepherd won’t run – dynamic library missing?的情况。

      

  #cd gridengine/bin/lx-amd64#./sge_shepherd此时会提示具体的问题,本人遇到问题的是缺少libhwloc.o.5库,安装即可,安装完全后再进行运行节点配置#yum install hwloc   #cd $SGE_ROOT  #./install_execd

转载于:https://www.cnblogs.com/wenqinchao/p/10859818.html

Centos6安装SGE以及集群配置相关推荐

  1. Apache+tomcat+mod_jk+centos6.2负载均衡集群配置--转载

    转载地址:http://blog.163.com/chenhui_java/blog/static/17267249420128101191860/ 注: 由于长期受转载毒害,所以本人日志均是原创:其 ...

  2. CentOS6安装nginx+Tomcat7集群并实现自启动

    环境:CentOS6.0 Nginx1.1.15+Tomcat7.0.22 步骤:1.首先安装JDK,Tomcat 2.安装nginx前先安装pcre,我安装的是最新的pcre-8.30.tar.gz ...

  3. zoomkeeper java使用_Zoonkeeper安装、集群配置 [Mac]

    Zoonkeeper安装.集群配置 [Mac] 1. 下载Zoonkeeper 进去后选择你需要的版本,然后下载对应的压缩文件到本地,比如我选择的是当前最新的版本 zookeeper-3.5.4-be ...

  4. ubuntu18.04下hadoop安装与集群配置

    ubuntu18.04下hadoop安装与集群配置 hadoop安装_单机/伪分布式配置 环境 创建hadoop用户 更新apt 安装SSH.配置SSH无密码登陆 安装Java环境 安装 Hadoop ...

  5. 分布式业务Redis安装与集群配置

    Redis在百度百科里的解释:Redis是一个开源的使用ANSI  C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言的API,包括C#.Java.PHP等等 ...

  6. Cloudera Manager安装之利用parcels方式安装单节点集群(包含最新稳定版本或指定版本的安装)(添加服务)(CentOS6.5)(四)...

    前期博客 Cloudera Manager安装之Cloudera Manager 5.3.X安装(三)(tar方式.rpm方式和yum方式) 说在前面的话(看清楚就好!!!) 我这篇博客,是两种方式都 ...

  7. Apache Hadoop3.x 分布式集群配置安装

    文章目录 一.前提说明 二.准备工作 三.开始 1 安装虚拟机 2 Hadoop运行环境搭建 2.1 ping 2.2 安装软件 2.3 关闭防火墙 2.4 创建普通用户 2.5修改虚拟机IP为静态 ...

  8. CentOS下torque集群配置(一)-torque安装与配置

    CentOS下torque集群配置(一)-torque安装与配置 一.Centos7系统的安装及设置 1.给两台电脑安装CentOS7.0,光盘启动路径修改为:/dev/cdrom 修改主机名称 # ...

  9. 安装 | 企业版CDH服务器集群配置(详细)

    大家好,我是小轩 最近比较忙,想整理的比较多,从这篇开始吧!如果需要可以关注. 硬件配置需求 1.所需硬件 服务器(台式机)4台 路由器1台,千兆. 显示器1台 键盘鼠标1套 网线5条 接线板1个 2 ...

最新文章

  1. 从数仓到数据中台,谈技术选型最优解
  2. 如何通过AppDomain用特定的安全上下文加载外部程序集
  3. 【深度学习】翻译:60分钟入门PyTorch(三)——神经网络
  4. iOS UITableView的使用大全-备用
  5. 学习记录-Linux图形栈:基于DRM和Wayland
  6. Java并发编程—锁的基本概念
  7. MySQL高级 - 日志 - 查询日志
  8. python StringIO
  9. log4net异步写入日志_微信支付万亿日志在Hermes中的实践
  10. FinalShell下载安装教程
  11. 在绩效评估中使用 360 反馈
  12. 开通OSChina的感概
  13. 适合理工直男的钟平老师逻辑英语学习笔记
  14. 重组标签云-标签聚类及其评价研究
  15. Asus Prime B360M-A+i5-8400+RX 570 黑苹果efi引导文件
  16. 项目实训—场景划分(一)
  17. 2019学unity3d游戏开发必看
  18. 使用xInt开源库生成Excel文档xlsx
  19. 根据微信号,生成微信公众号二维码
  20. nbu15_NBU常用的命令

热门文章

  1. linux生成相同文件名覆盖吗,去掉Linux中cp覆盖同名文件的提示
  2. 4年小Java的心路历程,绝对干货分享
  3. 游戏服务端(MMORPG)的基础算法二、寻路
  4. 如何在 Windows 下创建 macOS 引导介质 (USB 启动盘)
  5. SKU 和 SPU 有什么区别?
  6. L1-020 帅到没朋友 (20 分)
  7. 2019计算机研究生暑期学校,2019年度VLDB暑期学校
  8. Android Alarm详解
  9. android 触控优化,太滑手了,安卓这款触控优化神器要逆天!
  10. STM32MP157C-DK2->Develop on Arm® Cortex®-A7之 C语言开发LED例程