大数据2 Hadoop伪分布模式配置部署
为什么80%的码农都做不了架构师?>>>
Hadoop伪分布模式配置部署
一、实验环境说明
- 注意:本实验需要按照上一节单机模式部署后继续进行操作
1. 环境登录
无需密码自动登录,系统用户名 shiyanlou
2. 环境介绍
本实验环境采用带桌面的 Ubuntu Linux 环境,实验中会用到桌面上的程序:
- XfceTerminal:Linux 命令行终端,打开后会进入 Bash 环境,可以使用 Linux 命令
- Firefox:浏览器,可以用在需要前端界面的课程里,只需要打开环境里写的 HTML/JS 页面即可
- GVim:非常好用的编辑器,最简单的用法可以参考课程 Vim 编辑器
3. 环境使用
使用Vim编辑器输入实验所需的代码,然后使用Xfce终端命令行环境进行编译运行,查看运行结果,运行后可以截图并分享自己的实验报告,实验报告中的数据可以真实有效证明您已经完成了实验。
实验报告页面可以在“我的主页”中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操作的时间,如果没有操作,系统会记录为发呆时间)。这些都是您学习的真实性证明。
4. 参考文档
本实验参考下列文档内容制作:
- http://www.cnblogs.com/kinglau/p/3796164.html
- http://www.linuxidc.com/Linux/2012-01/50880p2.html
二、Hadoop伪分布式模式配置
注意:本实验需要按照上一节单机模式部署后继续进行操作,因此您必须先完成上一节实验。
1. 相关配置文件修改
1).修改core-site.xml
:
$ sudo gvim /usr/local/hadoop/etc/hadoop/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value></property>
</configuration>
常用配置项说明:
fs.default.name
这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。hadoop.tmp.dir
是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在/tmp/hadoop-${user.name}
这个路径中
更多说明请参考core-default.xml,包含配置文件所有配置项的说明和默认值。
2).修改hdfs-site.xml
:
$ sudo gvim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>
常用配置项说明:
dfs.replication
它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)dfs.data.dir
这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值为file://${hadoop.tmp.dir}/dfs/data
这个路径只能用于测试的目的,因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。dfs.name.dir
这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。
更多说明请参考hdfs-default.xml,包含配置文件所有配置项的说明和默认值。
3).修改mapred-site.xml
:
$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
$ sudo gvim /usr/local/hadoop/etc/hadoop/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>
常用配置项说明:
mapred.job.tracker
JobTracker的主机(或者IP)和端口。
更多说明请参考mapred-default.xml,包含配置文件所有配置项的说明和默认值
4).修改yarn-site.xml
:
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property>
</configuration>
常用配置项说明:
yarn.nodemanager.aux-services
通过该配置,用户可以自定义一些服务
更多说明请参考yarn-default.xml,包含配置文件所有配置项的说明和默认值
5). 修改 hadoop-env.sh
:
$ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
修改 JAVA_HOME 如下:
这样简单的伪分布式模式就配置好了。
三、格式化HDFS文件系统
在使用hadoop前,必须格式化一个全新的HDFS安装,通过创建存储目录和NameNode持久化数据结构的初始版本,格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据,而DataNode可以动态的加入或离开集群,因此这个格式化过程并不涉及DataNode。同理,用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。
1.先切换到hadoop账户,按照提示输入账户密码
$ su hadoop
2.格式化HDFS文件系统
$ hadoop namenode -format
会输出如下信息,则表格式化HDFS成功:
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = [你的主机名]/127.0.0.1
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
INFO util.ExitUtil: Exiting with status 0
INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]/127.0.0.1
************************************************************/
四、Hadoop集群启动
1.启动hdfs守护进程,分别启动NameNode和DataNode
$ hadoop-daemon.sh start namenode
$ hadoop-daemon.sh start datanode
或者一次启动
$ start-dfs.sh
输出如下(可以看出分别启动了namenode, datanode, secondarynamenode,因为我们没有配置secondarynamenode,所以地址为0.0.0.0):
Starting namenodes on []
hadoop@localhost's password:
localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.out
hadoop@localhost's password:
localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.out
localhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
localhost: It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
Starting secondary namenodes [0.0.0.0]
hadoop@0.0.0.0's password:
0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out
2.启动yarn,使用如下命令启ResourceManager和NodeManager:
$ yarn-daemon.sh start resourcemanager
$ yarn-daemon.sh start nodemanager
或者一次启动:
$ start-yarn.sh
3.检查是否运行成功
打开浏览器
- 输入:
http://localhost:8088
进入ResourceManager管理页面 - 输入:
http://localhost:50070
进入HDFS页面
可能出现的问题及调试方法:
启动伪分布后,如果活跃节点显示为零,说明伪分布没有真正的启动。原因是有的时候数据结构出现问题会造成无法启动datanode。如果使用hadoop namenode -format
重新格式化仍然无法正常启动,原因是/tmp
中的文件没有清除,则需要先清除/tmp/hadoop/*
再执行格式化,即可解决hadoop datanode无法启动的问题。具体步骤如下所示:
# 删除hadoop:/tmp
$ hadoop fs -rmr /tmp
# 停止hadoop
$ stop-all.sh
# 删除/tmp/hadoop*
$ rm -rf /tmp/hadoop*
# 格式化
$ hadoop namenode -format
# 启动hadoop
$ start-all.sh
六、测试验证
测试验证还是使用上一节的 WordCount。
不同的是,这次是伪分布模式,使用到了 hdfs,因此我们需要把文件拷贝到 hdfs 上去。
首先创建相关文件夹(要一步一步的创建):
$ hadoop dfs -mkdir /user
$ hadoop dfs -mkdir /user/hadoop
$ hadoop dfs -mkdir /user/hadoop/input
1.创建输入的数据,采用/etc/protocols文件作为测试
先将文件拷贝到 hdfs 上:
$ hadoop dfs -put /etc/protocols /user/hadoop/input
2.执行Hadoop WordCount应用(词频统计)
# 如果存在上一次测试生成的output,由于hadoop的安全机制,直接运行可能会报错,所以请手动删除上一次生成的output文件夹
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount input output
执行过程截图(部分):
3.查看生成的单词统计数据
$ hadoop dfs -cat /user/hadoop/output/*
七、关闭服务
输入命令
$ hadoop-daemon.sh stop namenode
$ hadoop-daemon.sh stop datanode
$ yarn-daemon.sh stop resourcemanager
$ yarn-daemon.sh stop nodemanager
或者
$ stop-dfs.sh
$ stop-yarn.sh
最后一步:点击屏幕上方的“实验截图”将上述命令执行后的截图保存并分享给朋友们吧,这是你学习Hadoop安装的证明。
八、小结
本实验讲解如何在单机模式下继续部署Hadoop为伪分布模式。
九、思考题
伪分布模式和单机模式配置上的区别主要是哪些?是否可以推论出如何部署真实的分布式Hadoop环境?
转载于:https://my.oschina.net/qiyong/blog/723884
大数据2 Hadoop伪分布模式配置部署相关推荐
- 大数据之-Hadoop伪分布式_配置启动HDFS_并运行MR程序---大数据之hadoop工作笔记0023
然后之前我们看了单机模式下我们运行一下hadoop提供的一些案例之类的,可以看到 之前我们用的 standalone 独立的 用单机模式 接下来我们去看这个pseudo-Distributed Ope ...
- 【大数据】Hadoop完全分布式配置(超详细)
文章目录 概述 1.准备Linux 2.安装JDK 3.克隆两台虚拟机 4.免密登陆 5.安装Hadoop 6.配置Hadoop配置文件 7.启动服务 8.在集群上测试一个jar包-单词统计的功能 问 ...
- 大数据之-Hadoop伪分布式_配置日志聚集---大数据之hadoop工作笔记0028
上一节我们配置了执行MapReduce程序后的,我们希望显示我们执行的MapReduce程序的详细信息, 所以我们配置了,历史服务器,接下来为了显示我们MapReduce程序执行中的,更详细的信息,我 ...
- 大数据之-Hadoop伪分布式_配置历史服务器---大数据之hadoop工作笔记0027
上一节我们配置好了yarn,但是我们yarn的管理控制台点击,我们执行的MapReduce的任务的,history的时候,显示无法打开,现在我们来配置 历史服务器,让history可用,这样我们使用y ...
- 大数据之-Hadoop伪分布式_Log日志查看和NN格式化前强调---大数据之hadoop工作笔记0024
首先再复习一下hadoop的伪分布式的配置. 首先配置hadoop-env.sh,这里面主要配置好JAVA_HOME 然后再去配置core-site.xml文件这个我们也设置好了. 然后再去配置hdf ...
- 大数据之hadoop伪集群搭建与MapReduce编程入门
一.理论知识预热 一句话介绍hadoop: Hadoop的核心由分布式文件系统HDFS与Map/Reduce计算模型组成. (1)HDFS分布式文件系统 HDFS由三个角色构成: 1)NameNode ...
- 大数据之-Hadoop伪分布式_配置文件说明---大数据之hadoop工作笔记0029
然后我们来看一下这个hadoop的,各个配置文件的说明: core-default.xml 配置了namenode的主机名称和端口号,还配置了hadoop/tmp/dir hdfs-default.x ...
- 大数据之-Hadoop伪分布式_启动YARN并运行MR程序---大数据之hadoop工作笔记0026
之前我们运行hadoop提供的案例是用hdfs运行的. 现在我们来配置一下yarn,我们用yarn,这个资源管理器来运行hadoop的mr程序. 首先我们要知道yarn包含两个主要的部分,当然还有其他 ...
- 大数据之-Hadoop伪分布式_NameNode格式化注意事项---大数据之hadoop工作笔记0025
然后我们再来看一下,格式化namenode的时候要注意的问题,如果namenode格式化老出错,一定要注意. 我们可以先去看看进入 /opt/hadoop-2.7.2/data/tmp 这个文件夹 进 ...
最新文章
- redhat 配置yum代理源
- mysql性能监控指标及分析
- 文档扫描识别——基于M-LSD线段检测的拍照文档校正
- 这脑洞绝了!中美合拍动画《哪吒与变形金刚》来了
- setfacl 权限导出_setfacl getfacl 将某个目录的访问权限赋值给某个用户
- 在ClassWizard无法显示添加的类解决方法(转载)
- Python 打印字典的KEY 和 VALUE
- 产品读书《About Face 3交互设计精髓》
- 微信小程序 访问locolhost_微信小程序 数据访问实例详解
- bin文件用cad打开_bin文件如何打开 XP系统中的打开的技巧
- android连接打印机打印pdf文件,如何在Android设备上打印PDF文件
- 注册一个域名需要多少钱_购买一个域名要多少钱?
- 贵州大数据声势已起 如何引进人才?
- ”周期天王”20大预言,针针见血,看完整个人通透多了
- Java用Jsoup开发爬虫获取双色球开奖信息
- “spoolsv.exe应用程序错误”的解决方法
- 全国高校2022年经费预算排名(前150名)
- (Word2Vec)怎么将得到的词向量变成句子向量,以及怎么衡量得到词向量的好坏
- SpringBoot集成Hibernate
- IDEA2022 搭建SpringMVC最新教程
热门文章
- stata安装_Stata自带的代码编辑器太丑了,那为何不使用Jupyter Notebook?
- Git push file exceed GitHub's file size
- Dell服务器Ubuntu 18.04 双显卡(2080ti)搭建深度学习环境(CUDA 10.1/cuDNN 7.6/Tensorflow 1.14).md...
- 热更新--动态加载framework
- 数据可视化工具zeppelin安装
- 港中大教授研发DeepID人脸识别技术 准确率超99%
- 数据是互联网下半场产品人突围之道
- 别把机器学习和人工智能搞混了!
- 百胜软件2016年双十一项目正式启动
- 学习笔记CB006:依存句法、LTP、n元语法模型、N-最短路径分词法、由字构词分词法、图论、概率论...