CDH版本Hadoop集群搭建

  • 1、CDH版本hadoop重新编译
    • 1.1 为什么要编译?
    • 1.2 编译环境的准备
    • 1.3 进行编译
  • 2、CDH版本的zookeeper环境搭建
    • 2.1 zookeeper下载解压
    • 2.2 修改配置文件
    • 2.3启动zk服务
  • 3、CDH伪分布式环境搭建
    • 3.1 上传压缩包并解压
    • 3.2 查看hadoop支持的压缩方式以及本地库
    • 3.3 修改配置文件
    • 3.4 创建文件存放目录
    • 3.5 安装包的分发
    • 3.6 配置hadoop的环境变量
  • 4集群环境启动
    • 4.1 脚本一键启动
    • 4.2 单个节点逐一启动
  • 5、浏览器查看启动页面

1、CDH版本hadoop重新编译

1.1 为什么要编译?

由于cdh给出的hadoop的安装包并没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题,所以一般需要自己重新编译。

1.2 编译环境的准备

Linux:推荐内存4G或以上,64位操作系统,联网,关闭防火墙。
jdk1.7安装:并在/etc/profile中配置环境变量,编译这里选择jdk1.7。
maven安装:编译需要在maven环境下进行。配置maven环境变量。
maven仓库:为增加编译速度,可以提前下载maven仓库,并在maven配置文件中指定本地仓库路径,同时添加阿里云镜像地址。
findbugs:下载解压并配置环境变量。
依赖包:在线安装一些依赖包。

yum -y install autoconf automake libtool cmake
yum -y install ncurses-devel
yum -y install openssl-devel
yum -y install lzo-devel zlib-devel gcc gcc-c++
yum -y install -y  bzip2-devel

安装protobuf :解压并编译。
安装snappy :下载地址 http://code.google.com/p/snappy/ ,解压并编译。
cdh源码准备:源码下载地址为:

http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.14.0-src.tar.gz

1.3 进行编译

进入解压的cdh源码目录中,

cd  /export/servers/hadoop-2.6.0-cdh5.14.0

支持snappy压缩方式编译:

mvn package -DskipTests -Pdist,native -Dtar -Drequire.snappy -e –X

编译成功后,进入该目录查看编译之后得到的文件:

cd  /export/servers/hadoop-2.6.0-cdh5.14.0/hadoop-dist/target

注意:所有环境变量配置完成后应执行命令使其立即生效。可通过source命令。

source /etc/profile

2、CDH版本的zookeeper环境搭建

集群环境以三台虚拟机为例,分别命名为node01,node02,node03。
每台应提前安装jdk1.8并配置环境变量。
其他相关虚拟机安装配置可以参考其他文档。

2.1 zookeeper下载解压

下载地址为:

http://archive.cloudera.com/cdh5/cdh/5/

选择和编译的CDH相同的版本,这里为CDH5.14.0

2.2 修改配置文件

创建zk数据存放目录

mkdir -p /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas

修改zk配置文件

cd /export/servers/zookeeper-3.4.5-cdh5.14.0/conf
cp zoo_sample.cfg zoo.cfg
vim  zoo.cfg

修改zoo.cfg中的内容:

dataDir=/export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas
autopurge.snapRetainCount=3
autopurge.purgeInterval=1
server.1=node01:2888:3888
server.2=node02:2888:3888
server.3=node03:2888:3888

在zkdatas中创建myid文件并写入内容:

echo 1 > /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas/myid

将安装包分发到其他机器,并需要修改其他机器的myid.myid是zookeeper选取leader的重要信息。
可修改node02的myid为2,修改node03的myid为3.

2.3启动zk服务

三台机器均执行以下命令:

cd  /export/servers/zookeeper-3.4.5-cdh5.14.0
bin/zkServer.sh start

3、CDH伪分布式环境搭建

安装环境服务部署规划,这里:
192.168.52.100为node01
192.168.52.110为node02
192.168.52.120为node03

服务器IP 192.168.52.100 192.168.52.110 192.168.52.120
HDFS NameNode
HDFS SecondaryNameNode
HDFS DataNode DataNode DataNode
YARN ResourceManager
YARN NodeManager NodeManager NodeManager
MapReduce JobHistoryServer

3.1 上传压缩包并解压

将我们重新编译之后支持snappy压缩的hadoop包上传到第一台服务器(指我的node01服务器,下同)并解压
第一台机器执行以下命令

cd /export/softwares/
tar -zxvf hadoop-2.6.0-cdh5.14.0.tar.gz -C ../servers/

3.2 查看hadoop支持的压缩方式以及本地库

第一台机器执行以下命令

cd /export/servers/hadoop-2.6.0-cdh5.14.0
bin/hadoop checknative

如果出现openssl为false,那么所有机器在线安装openssl即可

yum -y install openssl-devel

3.3 修改配置文件

建议可以通过nodepad++进行连接服务器,然后进行编写修改配置文件,以避免vim模式下可能出现的拼写错误。

第一台机器执行以下命令
----1 修改core-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim core-site.xml

更改文档信息:

<configuration><property><name>fs.default.name</name><value>hdfs://192.168.52.100:8020</value></property><property><name>hadoop.tmp.dir</name><value>/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas</value></property><!--  缓冲区大小,实际工作中根据服务器性能动态调整 --><property><name>io.file.buffer.size</name><value>4096</value></property><!--  开启hdfs的垃圾桶机制,删除掉的数据可以从垃圾桶中回收,单位分钟 --><property><name>fs.trash.interval</name><value>10080</value></property>
</configuration>

----2 修改hdfs-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hdfs-site.xml

更改文档信息:

   <configuration><property><name>dfs.namenode.secondary.http-address</name><value>node01:50090</value></property><property><name>dfs.namenode.http-address</name><value>node01:50070</value></property><property><name>dfs.namenode.name.dir</name><value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas</value></property><!--  定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割  --><property><name>dfs.datanode.data.dir</name><value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas</value></property><property><name>dfs.namenode.edits.dir</name><value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits</value></property><property><name>dfs.namenode.checkpoint.dir</name><value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name</value></property><property><name>dfs.namenode.checkpoint.edits.dir</name><value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits</value></property><property><name>dfs.replication</name><value>3</value></property><property><name>dfs.permissions</name><value>false</value></property>
<property><name>dfs.blocksize</name><value>134217728</value></property>
</configuration>

----3 修改 hadoop-env.sh

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hadoop-env.sh

更改文档信息:

export JAVA_HOME=/export/servers/jdk1.8.0_141

----4 修改 mapred-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim mapred-site.xml

更改文档信息:

 <configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.job.ubertask.enable</name><value>true</value></property><property><name>mapreduce.jobhistory.address</name><value>node01:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>node01:19888</value></property>
</configuration>

----5 修改yarn-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim yarn-site.xml

更改文档信息:

<configuration><property><name>yarn.resourcemanager.hostname</name><value>node01</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>
</configuration>

----6 修改slaves文件

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim slaves

更改文档信息:

node01
node02
node03

注意:这里是所有搭建集群所用的服务器主机名。在前期Linux环境安装时,有对主机名起别名为node01、node02、node03

3.4 创建文件存放目录

node01机器上面创建以下目录

mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits

这些目录用于后期hadoop 的namenode和datanodes等相关数据的生成存放目录。
这些目录在之前配置文件中均有配置。
集群初始化时,以及集群运行过程中的一些文件均会生成在我们配置的该目录中。

3.5 安装包的分发

将第一台安装的hadoop安装包复制到其他机器

cd /export/servers/
scp -r hadoop-2.6.0-cdh5.14.0/ node02:$PWD
scp -r hadoop-2.6.0-cdh5.14.0/ node03:$PWD

3.6 配置hadoop的环境变量

集群所有机器都要配置hadoop环境变量。

vim  /etc/profile

添加以下内容:
可直接在java环境变量后面添加:

export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使配置文件立即生效

source /etc/profile

4集群环境启动

要启动 Hadoop 集群,需要启动 HDFS 和 YARN 两个集群。
注意首次启动HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的 HDFS 在物理上还是不存在的。

bin/hadoop namenode –format

该指令会使集群在hadoopDatas中生成各种相关信息文件:如NameNode和DataNode中均会有VERSION文件,其中包含clusterId,namespaceID,
例如node01中:/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas/current
中namenode的VERSION文件内容如下:

namespaceID=715801864
clusterID=CID-8bdf2026-329e-4439-8016-55226cabfe84
cTime=0
storageType=NAME_NODE
blockpoolID=BP-1994706638-192.168.52.100-1535458650778
layoutVersion=-60

/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current 文件夹中datanode的VERSION文件格式如下:

storageID=DS-4a271b03-a87d-4069-a9a6-9782bac356c8
clusterID=CID-8bdf2026-329e-4439-8016-55226cabfe84
cTime=0
datanodeUuid=4d86a001-71e7-4d13-8fbd-898619fea804
storageType=DATA_NODE
layoutVersion=-56

注意: 格式化操作应只在集群环境刚配置完第一次启动前进行。后续集群启动均不用再进行格式化。
如果在第二次及以后启动集群前进行格式化,会导致namenode中的clusterID发生改变,此时与DataNode中VERSION文件的clusterID不一致,会导致DataNode无法正常启动。

4.1 脚本一键启动

如果配置了 etc/hadoop/slaves 和 ssh 免密登录,则可以使用程序脚本启动所有Hadoop 两个集群的相关进程,在主节点所设定的机器上执行即可。

node01节点上执行以下命令启动集群:

cd /export/servers/hadoop-2.6.0-cdh5.14.0/
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

一键停止集群(友情提醒:生产环境下停止集群要慎重):

sbin/stop-dfs.sh
sbin/stop-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

4.2 单个节点逐一启动

在主节点上使用以下命令启动 HDFS NameNode:

hadoop-daemon.sh start namenode

在每个从节点上使用以下命令启动 HDFS DataNode:

hadoop-daemon.sh start datanode

在主节点上使用以下命令启动 YARN ResourceManager:

yarn-daemon.sh  start resourcemanager

在每个从节点上使用以下命令启动 YARN nodemanager:

yarn-daemon.sh start nodemanager

以上脚本位于$HADOOP_PREFIX/sbin/目录中。如果想要停止某个节点上某个角色,只需要把命令中的start 改为stop 即可。

5、浏览器查看启动页面

hdfs集群访问地址(或者直接输入node01:50070)

http://192.168.52.100:50070/dfshealth.html#tab-overview

yarn集群访问地址

http://192.168.52.100:8088/cluster

jobhistory访问地址:

http://192.168.52.100:19888/jobhistory

如对文中有任何疑问,欢迎及时交流。
共同学习,共同进步。

CDH版本Hadoop集群环境搭建详解相关推荐

  1. hadoop集群环境搭建准备工作

    一定要注意hadoop和linux系统的位数一定要相同,就是说如果hadoop是32位的,linux系统也一定要安装32位的. 准备工作: 1 首先在VMware中建立6台虚拟机(配置默认即可).这是 ...

  2. [转]Hadoop集群_WordCount运行详解--MapReduce编程模型

    Hadoop集群_WordCount运行详解--MapReduce编程模型 下面这篇文章写得非常好,有利于初学mapreduce的入门 http://www.nosqldb.cn/1369099810 ...

  3. 大数据 -- Hadoop集群环境搭建

    首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网 ...

  4. hadoop集群环境搭建

    参考文章: https://www.linuxidc.com/Linux/2016-02/128149.htm https://blog.csdn.net/circyo/article/details ...

  5. Hadoop集群环境搭建之伪分布式搭建流程

    关防火墙 1.首先关闭window防火墙 service iptables status 查看Linux 防火墙状态 service iptables stop 关闭Linux防火墙 chkconfi ...

  6. Redis集群架构搭建详解

    一.简介 这其实是一种分布式数据库,就是通过分片的机制储存数据,cluster中的每个节点仅仅储存数据哭的一部分数据,本质上就是实现数据库分片. 这种集群是一种去中心化的集群,也就是说,集群中的每个节 ...

  7. Hadoop集群环境搭建(超详细)

    目录 1 实验环境 2 实验准备 3 配置SSH免密登录 4 Hadoop安装与配置 1 实验环境 Oracle Linux 7.4 JDK 1.8 Hadoop 2.7.4 2 实验准备 1.实验准 ...

  8. Java+大数据开发——Hadoop集群环境搭建(二)

    1. MAPREDUCE使用 mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序 2. Demo开发--wo ...

  9. LVS负载均衡集群服务搭建详解(一)

    LVS概述 1.LVS:Linux Virtual Server 四层交换(路由):根据请求报文的目标IP和目标PORT将其转发至后端主机集群中的某台服务器(根据调度算法): 不能够实现应用层的负载均 ...

最新文章

  1. SRP:The Single-Responsibility Principle
  2. JAX-RS 2.0:自定义内容处理
  3. ETL异构数据源Datax_MySQL同步Oracle(全量)_07
  4. 数据库---基础知识
  5. jsp页面输出excel文件乱码解决方案
  6. 大型分布式订单系统项目实战
  7. java中用窗口求一元二次方程,《一元二次方程求解窗口——Java第十三周》
  8. 传承百年经典的瑞吉管家静待您的优雅旅程再次开启
  9. python 灰度图转rgb rgb转灰度之间的变化
  10. MySQL · Semi-join原理及源码分析
  11. 如何让ARM板开机启动Qt
  12. 原生JS实现弹幕效果
  13. Docker与本地网络连接配置
  14. 主题讲座:移动互联网时代的创业机会
  15. 将apk和所需库文件编译打包到system/priv-app路径下
  16. symbian s60 删除模拟器上的程序
  17. 绝了!你裁我剪,斯尼帕!文末源码
  18. 第七章 绘制3D图表和统计地图
  19. Comparator、compare、compareTo
  20. 台式电脑怎么还原系统

热门文章

  1. 济南药品保健品交易会,2022全国中医药产业展会,山东药品展
  2. 了解固件(Firmware)和驱动(Driver)
  3. android diy固件,官方固件不给力?咱自己DIY!手把手教你修改固件!
  4. tomcat启动就运行我的写的java类
  5. java计算机毕业设计政务大厅管理系统源码+数据库+系统+部署+lw文档
  6. HTML 微信 获取微信ID,关于微信订阅号获取openid的问题_html/css_WEB-ITnose
  7. 2018年7月23日安全快讯
  8. Unity3D摄像机跟随人物
  9. php代码审计课程笔记
  10. 推荐几个小白学习的网站