【Hadoop】伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn
在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载。
http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation
(1)首先先传解压
(2)查看目录结构
需要删除bin/*.cmd sbin/*.cmd share/doc cmd(指的是Windows上执行的命令,者Linux中是不需要的,可以删除)
(3)修改三个模块的环境变量(*.env)
Hadoop-env.sh yarn-en.sh mapred-env.sh 配置者三个里面的环境变量(JAVA_HOME)并且添加可执行权限
chmod u+x Hadoop-env.sh yarn-env.sh mapred-env.sh
(4)按照模块来进行配置
下面介绍四个模块的配置以及运行过程
Common模块:
需配置该模块下的core.site.xml
这是配置文件的网站:
http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html(配置文件)
需配置的内容:
<!--指定文件系统为HDFS及主节点NameNode运行的机器和端口-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-hpsk01.huadian.com:8020</value>
</property>
<!--指定文件系统的本地临时存储目录,默认是当前系统/tmp,这里需要去执行创建临时目录--/opt/modules/hadoop-2.7.3/data/tmpData >
<property>
<name>hadoop.tmp.dir</name> <value>/opt/modules/hadoop-2.7.3/data/tmpData</value>
</property>
HDFS: 需配置该模块下的hdfs-site.xml(需配置的内容如下)
<!--由于是伪分布式部署,仅有一台机器
所有block副本数没有必要设置为3,设置为1即可-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
还需要配置slaves(配置slaves文件,指定datanode运行在那些机器上)
将原来的localhost修改为Linux的hostname(比如我的:bigdata-hpsk01.huadian.com 这里是自己设置的)如果有多个从节点,那就需要配置多个,原则上是一行一个主机名。
启动HDFS:第一次使用文件系统,需要格式化。
第一次使用文件系统,需要格式化。
操作的步骤 |
需输入的命令 |
备注 |
|
格式系统 |
cd /opt/modules/hadoop-2.7.3 bin/hdfs namenode -format |
||
启动 |
主节点 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh stop namenode 从节点 sbin/hadoop-daemon.sh start datanode sbin/hadoop-daemon.sh stop datanode |
这个每次都需要手动开启或关掉 |
|
验证是否启动成功 |
方式一: jps, ps -ef |grep java 方式二: 通过webUI 界面查看 bigdata-hpsk01.huadian.com:50070 |
通过着两种方式去查看是否启动失败或者成功 |
|
测试HDFS |
帮助文档 bin/hdfs dfs |
HDFS文件系统目录和Linux目录结构类似,命令也类似 |
|
下面这些操作都是属于测试HDFS的内容:这些命令需要进入到Hadoop-2.7.3下去执行 |
|||
创建目录 |
bin/hdfs dfs -mkdir /datas |
在HDFS上创建/datas目录,需要在浏览器上查看 |
|
查看目录 |
bin/hdfs dfs -ls /datas bin/hdfs dfs -ls / |
由于创建的时候目录里面没有内容,所以可以使用下面的这个查看创建是否成功 |
|
上传文件 |
bin/hdfs dfs -put /opt/datas/input.data /datas/ |
需要现在/opt目录下创建一个datas目录,然后再在datas目录下创建一个文件input.data,这个是需要上传的文件 |
|
查看文件内容 |
bin/hdfs dfs -text /datas/input.data bin/hdfs dfs -cat /datas/input.data |
||
下载文件 |
bin/hdfs dfs -get /datas/input.data ./ |
下载到当前目录 |
|
删除文件 |
bin/hdfs dfs -rm -r /datas/input.data |
这里可以是-r –f,不能是-rf |
格式化
出现的状态
启动主从节点
HDFS帮助文档
上传文件
查看文件内容
删除文件
配置YARN:
对于分布式资源管理和任务调度来说,哪些程序可以运行在YARN之上
运行在yarn上的程序 |
执行的任务 |
备注 |
||
MapReduce |
并行数据处理框架 |
|||
spark |
基于内存分布式处理框架 |
实时数据处理 |
||
storm/flink |
实时流式处理框架 |
|||
TeZ |
分析数据,比 MapReduce速度快 |
|||
Yarn的主从节点: 主节点:resourceManager 从节点:nodeManager |
||||
需要修改的配置 |
yarn-site.xml |
修改的内容: <!--resourceManager服务运行的主机名称--> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata-hpsk01.huadian.com</value> </property> <!--告知yarn ,mapreduce程序将在你这里运行--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> slaves文件:前面已经修改了,如果有多个也可以修改 |
||
启动 yarn |
主节点:resourceManager sbin/yarn-daemon.sh start resourcemanager 从节点:nodeManager sbin/yarn-daemon.sh start nodemanager |
|||
验证 |
方式一:jps === ps -ef |grep java 方式二:bigdata-hpsk01.huadian.com:8088(UI界面) |
启动yarn进程(主从节点)
下一篇将继续详细介绍剩余两个模块的配置以及运行的过程。
【Hadoop】伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn相关推荐
- 单机安装 hadoop 环境(Hadoop伪分布式安装)
任务描述: 作为某公司运维工程师,需在单机安装 hadoop 环境(Hadoop伪分布式安装).本环节需要使用 root用户完成相关配置,具体部署要求如下: 1. 关闭虚拟机防火墙 2. 修改&quo ...
- hadoop伪分布式安装
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq1010885678/article/details/43447733 首先需要有一台linux的 ...
- CentOS hadoop 伪分布式安装步骤
如果 hadoop 对应的 java进程运行在一个物理机器中,我们将之称为伪分布,如果它运行在多台物理机器中,就称其为分布式. 环境的准备 设置ip地址 采用host only网络连接方式,桌面右键网 ...
- [hadoop新实战2]hadoop伪分布式安装序列(支持ubuntu和redhat)
转载于:https://www.cnblogs.com/laodiao/p/3541630.html
- centos 7下Hadoop 2.7.2 伪分布式安装
centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [l ...
- CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware)
CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware) 准备 VMware虚拟机安装CentOs 7.4 虚拟机创建 CentOS 7.4安装 网络配置 JDK配置 Hadoop伪 ...
- 单机版安装,伪分布式安装
单机版安装,伪分布式安装 单机版安装:适合做一些调试,mapreduce调试(debug),实际开发中不用 伪分布式安装:在一台服务器上模拟出来多台服务器的效果(模拟多服务的启动方式) 官网地址 单机 ...
- ZooKeeper:win7上安装单机及伪分布式安装
zookeeper是一个为分布式应用所设计的分布式的.开源的调度服务,它主要用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用,协调及其管理的难度,提高性能的分布式服务. 本章的目的:如何 ...
- Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法
Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法 环境说明 系统:ubuntu18.04 主机名:test1 用 ...
- Hadoop伪分布式集群的安装部署
Hadoop伪分布式集群的安装部署Hadoop伪分布式集群的安装部署 首先可以为Linux虚拟机搭建起来的最初状态做一个快照,方便后期搭建分布式集群时多台Linux虚拟机的准备. 一.如何为虚拟机做快 ...
最新文章
- 【转】常见系统中文字体的英文名
- 【驱动】GPIO寄存器配置总结
- 独家 | 用pandas-profiling做出更好的探索性数据分析(附代码)
- ASp.net 剖析三层架构
- 【设计模式】模板方法模式 ( 简介 | 适用场景 | 优缺点 | 代码示例 )
- 最优化方法系列:SGD、Adam
- 与kylin_Kylin 迁移到 HBase 实践在小米的实践
- 2-算法 矩阵 数组类
- MyBatis基于Java API配置
- PCL Examples
- 2020美赛结果查询
- Python 操作 Excel 表格
- 张涵诚对于税务信息化跨入大数据云计算时代的思考
- windows7 内部版本7601 此windows副本不是正版 ---解决方案
- 微信外卖小程序 怎么计算与客户的距离_3分钟搞定微信小程序类美团用户商家距离计算...
- 微博博主侮辱女性 街猫koryili
- Linux入门学习——ssh基础操作
- java中的\t\r\n\b(Java转义字符)分别是什么?
- 冒泡排序的两种方式c语言代码,【C语言】两种方式实现冒泡排序算法
- [转载备用]极酷SevenColorPlayer网页播放器(炫彩广告版),最强播放器定制
热门文章
- javascript Date对象
- C语言rand函数生成随机数详解和示例
- freecplus框架-字符串操作
- python上传钉钉媒体文件_钉钉媒体文件上传
- python调用pipe_Python multiprocessing模块中的Pipe管道使用实例
- 小写数字转大写_不得不说的Excel小技巧:设置单元格格式将小写金额转换成大写...
- linux如何制作服务,linux把jar做成服务
- Vue常用属性和方法
- Android 使用代码设置selector 的图片或文字颜色
- Java调试打印复杂对象