实战CentOS系统部署Hadoop集群服务
导读 | Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序;HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 |
HDFS架构图
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
HDFS(Hadoop Distribution File System),称为Hadoop分布式文件系统,主要特点:
- HDFS最小以64MB的数据块存储文件,相比其他文件系统中的4KB~32KB分块大得多。
- HDFS在时延的基础上对吞吐量进行了优化,它能够高效处理了对大文件的读请求流,但不擅长对众多小文件的定位请求
- HDFS对普通的“一次写入,多次读取”的工作负载进行了优化。
- 每个存储节点运行着一个称为DataNode的进程,它管理着相应主机上的所有数据块。这些存储节点都由一个称为NameNode的主进程来协调,该进程运行于一台独立进程上。
- 与磁盘阵列中设置物理冗余来处理磁盘故障或类似策略不同,HDFS使用副本来处理故障,每个由文件组成的数据块存储在集群众的多个节点,HDFS的NameNode不断监视各个DataNode发来的报告。
客户端,提交MapReduce作业;jobtracker,协调作业的运行,jobtracker是一个java应用程序,它的主类是JobTracker;tasktracker。运行作业划分后的任务,tasktracker是一个java应用程序,TaskTracker是主类。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
Hadoop官网:http://hadoop.apache.org/
保持Hadoop集群每个节点配置环境一致,安装java,配置ssh。
实验环境:
Platform:xen vm
OS: CentOS 6.8
Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm
Hostname | IP Address | OS version | Hadoop role | Node role |
linux-node1 | 192.168.0.89 | CentOS 6.8 | Master | namenode |
linux-node2 | 192.168.0.90 | CentOS 6.8 | Slave | datenode |
linux-node3 | 192.168.0.91 | CentOS 6.8 | Slave | datenode |
linux-node4 | 192.168.0.92 | CentOS 6.8 | Slave | datenode |
#把需要的软件包下载下来上传到集群的各个节点上
#Hadoop集群中的每个节点的hosts文件都需要修改
[root@linux-node1 ~]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain linux-node1 192.168.0.89 linux-node1 192.168.0.90 linux-node2 192.168.0.91 linux-node3 192.168.0.92 linux-node4
#提前把下载好的JDK(rpm包)上传到服务器上,然后安装
rpm -ivh jdk-8u101-linux-x64.rpm export JAVA_HOME=/usr/java/jdk1.8.0_101/ export PATH=$JAVA_HOME/bin:$PATH # java -version java version "1.8.0_101" Java(TM) SE Runtime Environment (build 1.8.0_101-b13) Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)
#创建hadoop用户,设置使用sudo
[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop [root@linux-node1 ~]# echo "hadoopALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers [root@linux-node1 ~]# su - hadoop [hadoop@linux-node1 ~]$ cd /usr/local/src/ [hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz [hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop [hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop [hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/
#将hadoop的二进制目录添加到PATH变量,并设置HADOOP_HOME环境变量
[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/ [hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH
[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data} [hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp
#节点存储数据备份目录
sudo mkdir -p /data/hdfs/{name,data} sudo chown -R hadoop:hadoop /data/
#上述操作需在hadoop集群的每个节点都操作
#设置集群主节点免密码登陆其他节点
[hadoop@linux-node1 ~]$ ssh-keygen -t rsa [hadoop@linux-node1 ~]$ ssh-copy-id linux-node1@192.168.0.90 [hadoop@linux-node1 ~]$ ssh-copy-id linux-node2@192.168.0.91 [hadoop@linux-node1 ~]$ ssh-copy-id linux-node3@192.168.0.92
#测试ssh登录
文件位置:/home/hadoop/hadoop/etc/hadoop,文件名称:hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml
(1)配置hadoop-env.sh文件
#在hadoop安装路径下,进入hadoop/etc/hadoop/目录并编辑hadoop-env.sh,修改JAVA_HOME为JAVA的安装路径
[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/ [hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh # The only required environment variable is JAVA_HOME. All others are # set JAVA_HOME in this file, so that it is correctly defined on #export JAVA_HOME=${JAVA_HOME} export JAVA_HOME=/usr/java/jdk1.8.0_101/
(2)配置yarn.sh文件
指定yran框架的java运行环境,该文件是yarn框架运行环境的配置文件,需要修改JAVA_HOME的位置。
[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh # export JAVA_HOME=/home/y/libexec/jdk1.6.0/ export JAVA_HOME=/usr/java/jdk1.8.0_101/
(3)配置slaves文件
指定DataNode数据存储服务器,将所有的DataNode的机器的主机名写入到此文件中,如下:
[hadoop@linux-node1 hadoop]$ cat slaves linux-node2 linux-node3 linux-node4
Hadoop 3种运行模式
本地独立模式:Hadoop的所有组件,如NameNode,DataNode,Jobtracker,Tasktracker都运行在一个java进程中。
伪分布式模式:Hadoop的各个组件都拥有一个单独的Java虚拟机,它们之间通过网络套接字通信。
完全分布式模式:Hadoop分布在多台主机上,不同的组件根据工作性质的不同安装在不通的Guest上。
#配置完全分布式模式
(4)修改core-site.xml文件,添加红色区域的代码,注意蓝色标注的内容
<configuration> <property> <name>gt;fs.default.name</name> <value>hdfs://linux-node1:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> </configuration>
(5)修改hdfs-site.xml文件
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>linux-node1:9001</value> <description># 通过web界面来查看HDFS状态 </description> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> <description># 每个Block有2个备份</description> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
(6)修改mapred-site.xml
这个是mapreduce任务的配置,由于hadoop2.x使用了yarn框架,所以要实现分布式部署,必须在mapreduce.framework.name属性下配置为yarn。mapred.map.tasks和mapred.reduce.tasks分别为map和reduce的任务数。
[hadoop@linux-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>linux-node1:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>linux-node1:19888</value> </property> </configuration>
(7)配置节点yarn-site.xml
#该文件为yarn架构的相关配置
<?xml version="1.0"?> <!-- mapred-site.xml --> <configuration> <property> <name>mapred.child.java.opts</name> <value>-Xmx400m</value> <!--Not marked as final so jobs can include JVM debuggung options --> </property> </configuration> <?xml version="1.0"?> <!-- yarn-site.xml --> <configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>linux-node1:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>linux-node1:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>linux-node1:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>linux-node1:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>linux-node1:8088</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> </configuration>
scp -r /home/hadoop/hadoop/ 192.168.0.90:/home/hadoop/ scp -r /home/hadoop/hadoop/ 192.168.0.91:/home/hadoop/ scp -r /home/hadoop/hadoop/ 192.168.0.92:/home/hadoop/
/home/hadoop/hadoop/bin/hdfs namenode –format
#echo $? #sudo yum –y install tree # tree /home/hadoop/dfs
/home/hadoop/hadoop/sbin/start-dfs.sh /home/hadoop/hadoop/sbin/stop-dfs.sh
#namenode节点上面查看进程
ps aux | grep --color namenode
#DataNode上面查看进程
ps aux | grep --color datanode
[hadoop@linux-node1 .ssh]$ /home/hadoop/hadoop/sbin/start-yarn.sh starting yarn daemons
#NameNode节点上查看进程
ps aux | grep --color resourcemanager
#DataNode节点上查看进程
ps aux | grep --color nodemanager
注:start-dfs.sh和start-yarn.sh这两个脚本可用start-all.sh代替
/home/hadoop/hadoop/sbin/stop-all.sh /home/hadoop/hadoop/sbin/start-all.sh
#在NameNode节点上
[hadoop@linux-node1 ~]$ /home/hadoop/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver starting historyserver, logging to /home/hadoop/hadoop/logs/mapred-hadoop-historyserver-linux-node1.out
/home/hadoop/hadoop/bin/hdfs dfsadmin –report
#查看文件块组成,一个文件由那些块组成
/home/hadoop/hadoop/bin/hdfs fsck / -files -blocks
查看HDFS状态:http://192.168.0.89:50070/
查看Hadoop集群状态:http://192.168.0.89:8088/
实战CentOS系统部署Hadoop集群服务相关推荐
- 实战Centos系统部署Codis集群服务
导读 Codis 是一个分布式 Redis 解决方案, 对于上层的应用来说, 连接到 Codis Proxy 和连接原生的 Redis Server 没有明显的区别 (不支持的命令列表), 上层应用可 ...
- 虚拟机Centos系统下hadoop集群中静态IP配置
为了学习大数据,然后想在自己的电脑的虚拟机上搭建hadoop集群,搭建了一段时间,我才发现CentOS系统的静态IP设置是十分有必要的.我的hadoop集群只有两个节点,一个master,另一个是sl ...
- 离线部署 Cloudera Manager 5 和 CDH 5.12.1 及使用 CDH 部署 Hadoop 集群服务
Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera ...
- 阿里云ECS服务器部署HADOOP集群(三):ZooKeeper 完全分布式集群搭建
本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里 ...
- python自动化部署hadoop集群_大数据集群的自动化运维实现思路
原标题:大数据集群的自动化运维实现思路 | 作者简介 王晓伟 知数堂<大数据实战就业>课程讲师 六年大数据相关工作经验 清华大学软件工程硕士 曾就职于网易.搜狗等互联网企业 从事大数据及数 ...
- Linux centos 6配置hadoop 集群搭建笔记教程
一.安装JDK 1.上传jdk-8u121-linux-x64.tar.gz文件到/opt目录 2.解压jdk文件 tar -zxvf jdk-8u121-linux-x64.tar.gz -C /u ...
- 【大数据实战】Docker中Hadoop集群搭建
目录 Docker中Hadoop集群搭建 环境 网络设置 安装docker 安装OpenSSH免密登录 Ansible安装 软件环境配置 配置hadoop运行所需配置文件 Hadoop 启动 问题 D ...
- Hadoop实战-中高级部分 之 Hadoop 集群安装
Hadoop RestFul Hadoop HDFS原理1 Hadoop HDFS原理2 Hadoop作业调优参数调整及原理 Hadoop HA Hadoop MapReduce高级编程 Hadoop ...
- Centos7系统、Hadoop集群上部署ntp服务器
集群情况: 三台机器分别: master:180.201.163.46 slave1:180.201.156.76 slave2:180.201.130.17 网关:255.255.192.0 在sl ...
最新文章
- 使用Eclipse与Pydev开发Python
- mysql_secure_installation
- 利用日志审计追踪APT***
- mysql大量数据插入探讨(量变引起质变)
- 数字化转型的研究方向
- java中注解的解析_【Java】中的注解与注解解析器
- 日语2级语法总结--非190个语法点
- python如何导入seaborn_Seaborn - 导入数据集和库
- 一分钟,六张图让您看懂Linux系统对程序员的重要性。
- C++初学必练基础题【第四期】
- 未处理的异常: 0xC0000091: Floating-point overflow 的解决办法
- java微博情感倾向性分析_基于微博的情感倾向性分析方法研究
- 英文标题中的字母大写规则
- 通俗易懂解释raid0和raid5_raid0和raid5区别是什么?
- 学习笔记:Qt程序打包发布
- 库克退休前的最后一战:不是苹果汽车!
- c语言输出2~100以内所有的素数
- 三层交换机原理及配置
- Django 框架学习经验分享
- JavaScript 基础入门
热门文章
- Android 测试教程
- Unity各个版本的离线文档下载和配置方法
- soc设计方法与实现第三版pdf_资深Redis技术专家带你深入了解:Redis的设计与实现(PDF)...
- android 自定义模板下载,android studio 自定义模板
- php引用数据检测,利用单元测试检查PHP代码
- jndi连接池链接mysql_使用容器提供的数据库连接池--JNDI用法
- 孔兵 库卡机器人_库卡机器人中华区CEO孔兵:机器人是制造业升级的关键
- python import from class_Python: import vs from (module) import function(class) 的理解
- 【CF375D】Trees and Queries——树上启发式合并
- js下载文件及命名(兼容多浏览器)