Hadoop教程(二)Hadoop伪集群环境安装

本文链接:https://blog.csdn.net/yuan_xw/article/details/50039325

Hadoop教程()Hadoop伪集群环境安装

Hadoop伪分布式安装

1.1 相关下载

1、JDK下载地址:jdk-8u66-linux-x64.tar.gz

Linux安装JDK及环境变量配置,参见:http://blog.csdn.net/yuan_xw/article/details/49948285

2、Hadoop下载:hadoop-2.7.1.tar.gz

1.2 上传服务器

1、下载完成后,使用Xftp软件上传到Linux服务器上:/usr/local/software

执行命令:mkdir /usr/local/software

2、Xshell命令行进行解压安装:

执行命令:cd /usr/local/software 切换目录

执行命令:tar -zxvf hadoop-2.7.1.tar.gz解压

3、重命名hadoop_2.7.1,执行命令:mv hadoop-2.7.1 hadoop_2.7.1

4、Hadoop目录说明:

1. bin:Hadoop最基本的管理脚本和使用脚本所在目录

2. etc:Hadoop配置文件所在的目录,包括core-site.xmlhdfs-site.xmlmapred-site.xml

3. include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++语言访问HDFS或者编写MapReduce程序

4. lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。

5. libexec:各个服务对应的Shell配置文件所在目录,可用于配置日志输出目录、启动参数(比如JVM参数)等基本信息。

6. sbinHadoop管理脚本所在目录,主要包含HDFSYARN中各类服务的启动/关闭脚本。

7. shareHadoop各个模块编译后的JAR包所在目录。

1.3 环境变量

1、HADOOP_HOME:环境变量它指向Hadoop的安装目录,如:/usr/local/software/hadoop_2.7.1

2、PATH环境变量:作用是指定命令搜索路径,在shell下面执行命令时,它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序。

3、修改profilie文件:执行命令:vi /etc/profile

export JAVA_HOME=/usr/local/software/jdk1.8.0_66

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export HADOOP_HOME=/usr/local/software/hadoop_2.7.1

export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

执行命令:source /etc/profile   刷新环境变量

1.4 CentOS7环境配置

1、修改HOSTNAME(主机名):

将主机名改为:Hadoop1:执行命令:vi /etc/hostname

验证:重启

2、IPhostname绑定:

修改文件,执行命令:vi /etc/hosts

添加一行代码:192.168.10.121 Hadoop1

验证:ping Hadoop1

3、关闭防火墙:

CentOS 7RHEL 7Fedora中防火墙由firewalld来管理,当然你可以还原传统的管理方式。或则使用新的命令进行管理。

新的命令管理:

1.执行命令:systemctl stop firewalld

传统的管理方式:

1.安装iptables-services命令

yum install iptables-services

2.设置开机启动:service iptables [stop|start|restart]

service iptables save

# or

/usr/libexec/iptables/iptables.initsave

验证:service iptables status

4、关闭防火墙自动运行:

执行命令:systemctl disable iptables.service

验证:systemctl list-unit-files |grep iptables

5、免密码登录:

产生密钥,执行命令:ssh-keygen -t rsa,连续按4次回车,密钥文件位于~/.ssh文件

执行命令:cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

验证:ssh localhost

1.5 修改配置文件:

1、修改hadoop-env.sh配置文件:

执行命令:

vi /usr/local/software/hadoop_2.7.1/etc/hadoop/hadoop-env.sh

修改内容:

export JAVA_HOME=/usr/local/software/jdk1.8.0_66

2、修改core-site.xml配置文件:

执行命令:

vi /usr/local/software/hadoop_2.7.1/etc/hadoop/core-site.xml

修改内容:

  1. <configuration>

  2. <!--指定NameNode的master节点URL地址 -->

  3. <property>

  4. <name>fs.defaultFS</name>

  5. <value>hdfs://Hadoop1:9000</value>

  6. </property>

  7. <!-- Hadoop的运行时文件存放路径,如果不存在此目录需要格式化 -->

  8. <property>

  9. <name>hadoop.tmp.dir</name>

  10. <value>/usr/local/software/hadoop_2.7.1/tmp</value>

  11. </property>

  12. </configuration>

3、修改hdfs-site.xml配置文件:

执行命令:

vi /usr/local/software/hadoop_2.7.1/etc/hadoop/hdfs-site.xml

修改内容:

  1. <configuration>

  2. <!-- 配置副本的数量 -->

  3. <property>

  4. <name>dfs.replication</name>

  5. <value>1</value>

  6. </property>

  7. </configuration>

4、修改mapred-site.xml配置文件:

执行命令:

切换目录:cd /usr/local/software/hadoop_2.7.1/etc/hadoop/

重命名:mv mapred-site.xml.template  mapred-site.xml

修改文件:vi mapred-site.xml

修改内容:

  1. <configuration>

  2. <!-- 指定Hadoop的MapReduce运行在YARN环境 -->

  3. <property>

  4. <name>mapreduce.framework.name</name>

  5. <value>yarn</value>

  6. </property>

  7. </configuration>

5、修改yarn-site.xml配置文件:

执行命令:

   vi /usr/local/software/hadoop_2.7.1/etc/hadoop/yarn-site.xml

修改内容:

  1. <configuration>

  2. <!-- NodeManager获取数据方式:shuffle -->

  3. <property>

  4. <name>yarn.nodemanager.aux-services</name>

  5. <value>mapreduce_shuffle</value>

  6. </property>

  7. <!--指定YARN的master节点( ResourceManager) 的地址 -->

  8. <property>

  9. <name>yarn.resourcemanager.hostname</name>

  10. <value>Hadoop1</value>

  11. </property>

  12. </configuration>

1.6 格式化文件系统:

HDFS文件系统进行格式化,执行命令:。

# hadoop namenode -formate(已过时)

hdfs namenode -format推荐使用

验证:提示如下信息表示成功:

INFO common.Storage: Storagedirectory /usr/local/software/hadoop_2.7.1/tmp/dfs/name has been successfullyformatted.

1.7 启动Hadoop

1、启动HDFSYARN:

切换目录:cd /usr/local/software/hadoop_2.7.1/sbin/

启动HDFSYARN,执行命令:

./start-all.sh (已过时:Thisscript is Deprecated. Instead use start-dfs.shandstart-yarn.sh)

2、验证启动HDFSYARN:

SecondaryNameNode:它不是 namenode的冗余守护进程,而是提供周期检查点和清理任务。

DataNode:它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个 datanode守护进程。

ResourceManager:接收客户端任务请求,接收和监控NodeManager(NM)的资源情况汇报,负责资源的分配与调度,启动和监控ApplicationMaster(AM)

JpsJDK提供查看当前java进程的小工具。

NameNode:它是Hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。

NodeManager:NodeManagerNM)是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务(auxiliaryservice)。

1.8 访问Hadoop服务页面:

访问地址验证启动服务,访问地址:

HDFS管理界面:http://192.168.10.121:50070/

YARN管理界面:http://192.168.10.121:8088/

--以上为《Hadoop教程(二)Hadoop伪集群环境安装》,如有不当之处请指出,我后续逐步完善更正,大家共同提高。谢谢大家对我的关注。

——厚积薄发(yuanxw)

Hadoop教程(二)Hadoop伪集群环境安装相关推荐

  1. zookeeper 在 windows 下配置伪集群环境

    安装启动zookeeper 在 Apache zookeeper 官网下载 https://www.apache.org/dyn/closer.cgi/zookeeper/ 下载后解压,我使用的是3. ...

  2. 适合入门hadoop 2.7.7的集群环境搭建高可用版本配置(保姆版)

    需要的安装包: 1.jdk压缩包 2.hadoop压缩包 百度云盘链接 开始搭建hadoop集群 1 集群规划 安装VMware,使用三台虚拟机进行集群搭建,下面是每台虚拟机的规划: 2 网络配置 2 ...

  3. 学习笔记Spark(二)—— Spark集群的安装配置

    一.我的软件环境 二.Spark集群拓扑 2.1.集群规模 192.168.128.10 master 1.5G ~2G内存.20G硬盘.NAT.1~2核 : 192.168.128.11 node1 ...

  4. redis集群环境安装(参照redis中文官网,中间遇到了一些问题,so,记录一下)

    创建步骤 01. 准备环境 # yum install gcc # yum install ruby # yum install ruby-devel.x86_64 # yum install rub ...

  5. Hadoop伪集群环境搭建

    结合网上多份文档,不断反复的修正hadoop启动和运行过程中出现的问题,终于把Hadoop2.5.2伪分布式安装起来,跑通了wordcount例子.Hadoop的安装复杂性的体现之一是,Hadoop的 ...

  6. hadoop单机及完全分布式集群的安装

    1. hadoop 我Hadoop的安装目录为/usr/local/workspace/hadoop 2.hdfs 2.1 单机模式 单机模式即不使用分布式模式,无需启动namenode和datano ...

  7. Spark 1.2 集群环境安装

    我是在单机环境下修改下配置完成的集群模式 单机安装查看:http://blog.csdn.net/wind520/article/details/43458925 参考官网配置:http://spar ...

  8. ZooKeeper集群环境安装与配置

    原文:出自本人的Linux博客http://blog.csdn.net/unix21/ ZooKeeper版本:3.4.5 约定:3台虚拟机 前提:需要安装JDK,关于Linux环境JDK安装配置参考 ...

  9. Hadoop分布式集群的安装与部署实训总结报告

    目录 前言 一.Hadoop平台框介绍 1.Hadoop的架构 2.HDFS:遵循主从架构,它具有以下元素. 2.1 名称节点 -Namenode 2.2 数据节点 - Datanode 2.3 块 ...

最新文章

  1. Spring Security 实战:自定义异常处理
  2. 【今日互联网大事儿】聚美市值缩水一半
  3. bo65连oracle报服务不响应,ORACLE常见问题一千问[1至100]
  4. c语言注释说明被计算机编译系统忽略,C语言程序设计(陈艳 2019-2020-2)-中国大学mooc-题库零氪...
  5. [html] 如何在不同的端口间共享cookie?
  6. Pandas知识点-Series数据结构介绍
  7. oracle sqe值,质量感悟 | 无论什么层次的供应商都喜欢跟SQE中的高手过招儿
  8. 雷军和董明珠“十亿赌局”胜负已定:小米格力营收差距依然很大
  9. 在Linux中,用.swp文件恢复未保存的文件
  10. 【学术】推荐给从事科研的青年人——石墨烯教父:从千年博后到物理诺奖的心路历程
  11. 淘宝导航css相关说明
  12. java提取一个字符串中的整数和小数部分
  13. 阿里云网盘资源免费分享论坛正式上线
  14. 怎么去掉win7开始菜单中的睡眠和休眠选项
  15. 阿里云携手创业黑马,“双百计划”赋能百城万企创新转型
  16. 全面剖析:“外包”浪潮以及程序员应对攻略
  17. 守望先锋,工坊规则封禁源式利用表情卡原地小跳
  18. UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 2: illegal mu
  19. MySQL(更新中)
  20. android服务无法启动,Android应用程序无法启动服务

热门文章

  1. Linux: 系统文件权限总结
  2. 解决压缩包跨平台解压缩的中文乱码问题
  3. moodle架构分析---数据连接层的设计
  4. linux 批量替换文件内容及查找某目录下所有包含某字符串的文件(批量修改文件内容)...
  5. Linux批量复制文件夹里的文件到另一个文件夹(问题:linux sh: /bin/cp: Argument list too long )
  6. Python--map用法
  7. 【Processing学习笔记】安装与入门
  8. linux下Qt cannot find -lGL错误的解决方法
  9. 演练 玩游戏支付游戏币
  10. 媒体查询 200304