文章目录

Hadoop简介和集群搭建
- Hadoop介绍
- Hadoop的发行版本和三大公司
- hadoop的架构
- 安装Hadoop
- - 第一步：上传编译后的apache hadoop包并解压
  - 第二步：修改配置文件（七个）
  - - core-site.xml
    - hdfs-site.xml
    - hadoop-env.sh
    - mapred-site.xml
    - yarn-site.xml
    - mapred-env.sh
    - slaves
    - 第一台主机执行如下命令
    - 安装包的分发
  - 第三步：配置环境变量
  - 启动集群

Hadoop简介和集群搭建

Hadoop介绍

1.Hadoop最早起源于Nutch。Nutch的目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能。但是随着网页抓取量的不断增多，遇到了严重的可拓展问题。
2.2003年、2004年谷歌发表了两篇论文为该问题提供了可行的解决方案。
-- 分布式文件系统GFS，可以用于海量网页的存储
-- 分布式计算框架MAPREDUCE，可以用于处理海量王爷的索引计算问题。
3.Nutch的开发人员完成了相应的开源实现HDFS和MapReduce，并从Nutch中剥离出来为独立的HADOOP，到2008年1月，HADOOP成为了Apache的顶级项目。

狭义上说，HADOOP就是单独指HADOOP这个软件
- HDFS 分布式文件系统
- MapReduce 分布式计算系统
- Yarn 分布式集群资源管理
广义上讲，hadoop指的是大数据这个生态群，包括其他很多软件

Hadoop的发行版本和三大公司

历史版本

1.x版本系列：hadoop版本的中的第二代开源版本，主要修复了0.x版本的一些BUG
2.x版本系列：架构产生重大变化了，引入了yarn平台等许多新特性
3.x版本系列：加入多namenode新特性

发行公司

1. 免费开源版本apache  (版本兼容性不太好,但是拥有全世界最多的开源贡献者)
2. hortonWorks免费开源
3 .软件收费ClouderaManager（版本兼容性比较好）

hadoop的架构

1.x的架构
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uHJp1huL-1571408345679)(DA8E3806E4FE465E9839F16A5228EBD8)]

文件系统核心模块：NameNode: 集群中的主节点，管理元数据(文件的大小，文件的位置，文件的权限)，主要用于管理集群中的各种数据。
secondaryNameNode：主要用于hadoop当中的元数据信息的辅助管理。
DataNode：集群中的从节点，主要用于存储集群中的各种数据。数据计算核心模块：JobTracker：接受用户的计算请求，并分配任务给从节点。
TaskTracker：负责执行主节点JobTracker分配的任务。

2.x的架构

1） NameNode与ResourceManager单节点架构模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-saq2zm0V-1571408345680)(B43EDB93200A4BC1B0D9B4B359939A8B)]

文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据
secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配
NodeManager：负责执行主节点APPmaster分配的任务

2） NameNode与ResourceManager高可用架构模型（或者某一个是高可用）
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eQkLHrMH-1571408345681)(06892FF769B14C83BEC62A026DA36219)]

文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实
现高可用
JournalNode：元数据信息管理进程，一般都是奇数个
DataNode：从节点，用于数据的存储

数据计算核心模块：
ResourceManager：Yarn平台的主节点，主要用于接收各种任务，通过两个，构建成高可用
NodeManager：Yarn平台的从节点，主要用于处理ResourceManager分配的任务

安装Hadoop

集群规划

服务器IP	192.168.100.100	192.168.100.120	192.168.100.130
主机名	node01	node02	node03
NameNode	是	否	否
SecondaryNameNode	是	否	否
dataNode	是	是	是
ResourceManager	是	否	否
NodeManager	是	是	是

第一步：上传编译后的apache hadoop包并解压

  解压命令：cd /export/softwarestar -zxvf hadoop-2.7.5.tar.gz -C ../servers/

第二步：修改配置文件（七个）

core-site.xml

<configuration><!--  指定集群的文件系统类型:分布式文件系统 --><property><name>fs.default.name</name><value>hdfs://node01:8020</value></property><!--  指定临时文件存储目录 --><property><name>hadoop.tmp.dir</name><value>/export/servers/hadoop-2.7.5/hadoopDatas/tempDatas</value></property><!--  缓冲区大小，实际工作中根据服务器性能动态调整 --><property><name>io.file.buffer.size</name><value>4096</value></property><!--  开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 --><property><name>fs.trash.interval</name><value>10080</value></property>
</configuration>

hdfs-site.xml

<configuration><property><name>dfs.namenode.secondary.http-address</name><value>node01:50090</value></property><!-- 指定namenode的访问地址和端口 --><property><name>dfs.namenode.http-address</name><value>node01:50070</value></property><!-- 指定namenode元数据的存放位置 --><property><name>dfs.namenode.name.dir</name><value>file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2</value></property><!--  定义dataNode数据存储的节点位置，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割  --><property><name>dfs.datanode.data.dir</name><value>file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2</value></property><!-- 指定namenode日志文件的存放目录 --><property><name>dfs.namenode.edits.dir</name><value>file:///export/servers/hadoop-2.7.5/hadoopDatas/nn/edits</value></property><property><name>dfs.namenode.checkpoint.dir</name><value>file:///export/servers/hadoop-2.7.5/hadoopDatas/snn/name</value></property><property><name>dfs.namenode.checkpoint.edits.dir</name><value>file:///export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value></property><!-- 文件切片的副本个数--><property><name>dfs.replication</name><value>3</value></property><!-- 设置HDFS的文件权限--><property><name>dfs.permissions</name><value>true</value></property><!-- 设置一个文件切片的大小：128M--><property><name>dfs.blocksize</name><value>134217728</value></property>
</configuration>

hadoop-env.sh

首行加入，如果莫名报错，删除所有注释
export JAVA_HOME=/export/servers/jdk1.8.0_141

mapred-site.xml

<configuration><!-- 开启MapReduce小任务模式 --><property><name>mapreduce.job.ubertask.enable</name><value>true</value></property><!-- 设置历史任务的主机和端口 --><property><name>mapreduce.jobhistory.address</name><value>node01:10020</value></property><!-- 设置网页访问历史任务的主机和端口 --><property><name>mapreduce.jobhistory.webapp.address</name><value>node01:19888</value></property>
</configuration>

yarn-site.xml

<configuration><!-- 配置yarn主节点的位置 --><property><name>yarn.resourcemanager.hostname</name><value>node01</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 开启日志聚合功能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 设置聚合日志在hdfs上的保存时间 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><!-- 设置yarn集群的内存分配方案 --><property>    <name>yarn.nodemanager.resource.memory-mb</name>    <value>20480</value></property><property>  <name>yarn.scheduler.minimum-allocation-mb</name><value>2048</value></property><property><name>yarn.nodemanager.vmem-pmem-ratio</name><value>2.1</value></property></configuration>

mapred-env.sh

首行加入JDK的地址
export JAVA_HOME=/export/servers/jdk1.8.0_141

slaves

node01
node02
node03

第一台主机执行如下命令

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

安装包的分发

第一台机器执行如下命令

cd /export/servers/
scp -r hadoop-2.7.5 node02:$PWD
scp -r hadoop-2.7.5 node03:$PWD

第三步：配置环境变量

三台机器都要配置环境变量
vim /etc/profileexport HADOOP_HOME=/export/servers/hadoop-2.7.5
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHsource /etc/profile

启动集群

第一台机器执行以下命令

cd /export/servers/hadoop-2.7.5/
bin/hdfs namenode -format
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

三个页面

http://node01:50070/explorer.html#/ 查看hdfs
http://node01:8088/cluster 查看yarn集群
http://node01:19888/jobhistory 查看历史完成的任务