在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载。

http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

(1)首先先传解压

(2)查看目录结构

需要删除bin/*.cmd sbin/*.cmd share/doc cmd(指的是Windows上执行的命令,者Linux中是不需要的,可以删除)

(3)修改三个模块的环境变量(*.env)

Hadoop-env.sh   yarn-en.sh   mapred-env.sh    配置者三个里面的环境变量(JAVA_HOME)并且添加可执行权限

chmod u+x Hadoop-env.sh  yarn-env.sh   mapred-env.sh

(4)按照模块来进行配置

下面介绍四个模块的配置以及运行过程

Common模块:

需配置该模块下的core.site.xml

这是配置文件的网站:

http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html(配置文件)

需配置的内容:

<!--指定文件系统为HDFS及主节点NameNode运行的机器和端口-->

<property>

<name>fs.defaultFS</name>

<value>hdfs://bigdata-hpsk01.huadian.com:8020</value>

</property>

<!--指定文件系统的本地临时存储目录,默认是当前系统/tmp,这里需要去执行创建临时目录--/opt/modules/hadoop-2.7.3/data/tmpData >

<property>

<name>hadoop.tmp.dir</name>    <value>/opt/modules/hadoop-2.7.3/data/tmpData</value>

</property>

HDFS: 需配置该模块下的hdfs-site.xml(需配置的内容如下)

<!--由于是伪分布式部署,仅有一台机器

所有block副本数没有必要设置为3,设置为1即可-->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

还需要配置slaves(配置slaves文件,指定datanode运行在那些机器上)

将原来的localhost修改为Linux的hostname(比如我的:bigdata-hpsk01.huadian.com 这里是自己设置的)如果有多个从节点,那就需要配置多个,原则上是一行一个主机名。

启动HDFS:第一次使用文件系统,需要格式化。

第一次使用文件系统,需要格式化。

操作的步骤

需输入的命令

备注

格式系统

cd /opt/modules/hadoop-2.7.3

bin/hdfs namenode -format

启动

主节点

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh stop namenode

从节点                                            sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh stop datanode

这个每次都需要手动开启或关掉

验证是否启动成功

方式一:

jps,

ps -ef |grep java

方式二:

通过webUI 界面查看

bigdata-hpsk01.huadian.com:50070

通过着两种方式去查看是否启动失败或者成功

测试HDFS

帮助文档

bin/hdfs dfs

HDFS文件系统目录和Linux目录结构类似,命令也类似

下面这些操作都是属于测试HDFS的内容:这些命令需要进入到Hadoop-2.7.3下去执行

创建目录

bin/hdfs dfs -mkdir /datas

在HDFS上创建/datas目录,需要在浏览器上查看

查看目录

bin/hdfs dfs -ls /datas

bin/hdfs dfs -ls /

由于创建的时候目录里面没有内容,所以可以使用下面的这个查看创建是否成功

上传文件

bin/hdfs dfs -put /opt/datas/input.data /datas/

需要现在/opt目录下创建一个datas目录,然后再在datas目录下创建一个文件input.data,这个是需要上传的文件

查看文件内容

bin/hdfs dfs -text /datas/input.data

bin/hdfs dfs -cat  /datas/input.data

下载文件

bin/hdfs dfs -get /datas/input.data ./

下载到当前目录

删除文件

bin/hdfs dfs -rm -r /datas/input.data

这里可以是-r –f,不能是-rf

格式化

出现的状态

启动主从节点

HDFS帮助文档

上传文件

查看文件内容


删除文件

配置YARN:

对于分布式资源管理和任务调度来说,哪些程序可以运行在YARN之上

运行在yarn上的程序

执行的任务

备注

MapReduce

并行数据处理框架

spark

基于内存分布式处理框架

实时数据处理

storm/flink

实时流式处理框架

TeZ

分析数据,比

MapReduce速度快

Yarn的主从节点:

主节点:resourceManager

从节点:nodeManager

需要修改的配置

yarn-site.xml

修改的内容:

<!--resourceManager服务运行的主机名称-->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>bigdata-hpsk01.huadian.com</value>

</property>

<!--告知yarn ,mapreduce程序将在你这里运行-->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

slaves文件:前面已经修改了,如果有多个也可以修改

启动

yarn

主节点:resourceManager

sbin/yarn-daemon.sh start resourcemanager

从节点:nodeManager

sbin/yarn-daemon.sh start nodemanager

验证

方式一:jps  === ps -ef |grep java

方式二:bigdata-hpsk01.huadian.com:8088(UI界面)

启动yarn进程(主从节点

下一篇将继续详细介绍剩余两个模块的配置以及运行的过程。

【Hadoop】伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn相关推荐

  1. 单机安装 hadoop 环境(Hadoop伪分布式安装)

    任务描述: 作为某公司运维工程师,需在单机安装 hadoop 环境(Hadoop伪分布式安装).本环节需要使用 root用户完成相关配置,具体部署要求如下: 1. 关闭虚拟机防火墙 2. 修改&quo ...

  2. hadoop伪分布式安装

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq1010885678/article/details/43447733 首先需要有一台linux的 ...

  3. CentOS hadoop 伪分布式安装步骤

    如果 hadoop 对应的 java进程运行在一个物理机器中,我们将之称为伪分布,如果它运行在多台物理机器中,就称其为分布式. 环境的准备 设置ip地址 采用host only网络连接方式,桌面右键网 ...

  4. [hadoop新实战2]hadoop伪分布式安装序列(支持ubuntu和redhat)

    转载于:https://www.cnblogs.com/laodiao/p/3541630.html

  5. centos 7下Hadoop 2.7.2 伪分布式安装

    centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [l ...

  6. CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware)

    CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware) 准备 VMware虚拟机安装CentOs 7.4 虚拟机创建 CentOS 7.4安装 网络配置 JDK配置 Hadoop伪 ...

  7. 单机版安装,伪分布式安装

    单机版安装,伪分布式安装 单机版安装:适合做一些调试,mapreduce调试(debug),实际开发中不用 伪分布式安装:在一台服务器上模拟出来多台服务器的效果(模拟多服务的启动方式) 官网地址 单机 ...

  8. ZooKeeper:win7上安装单机及伪分布式安装

    zookeeper是一个为分布式应用所设计的分布式的.开源的调度服务,它主要用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用,协调及其管理的难度,提高性能的分布式服务. 本章的目的:如何 ...

  9. Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法

    Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法 环境说明 系统:ubuntu18.04 主机名:test1 用 ...

  10. Hadoop伪分布式集群的安装部署

    Hadoop伪分布式集群的安装部署Hadoop伪分布式集群的安装部署 首先可以为Linux虚拟机搭建起来的最初状态做一个快照,方便后期搭建分布式集群时多台Linux虚拟机的准备. 一.如何为虚拟机做快 ...

最新文章

  1. 【转】常见系统中文字体的英文名
  2. 【驱动】GPIO寄存器配置总结
  3. 独家 | 用pandas-profiling做出更好的探索性数据分析(附代码)
  4. ASp.net 剖析三层架构
  5. 【设计模式】模板方法模式 ( 简介 | 适用场景 | 优缺点 | 代码示例 )
  6. 最优化方法系列:SGD、Adam
  7. 与kylin_Kylin 迁移到 HBase 实践在小米的实践
  8. 2-算法 矩阵 数组类
  9. MyBatis基于Java API配置
  10. PCL Examples
  11. 2020美赛结果查询
  12. Python 操作 Excel 表格
  13. 张涵诚对于税务信息化跨入大数据云计算时代的思考
  14. windows7 内部版本7601 此windows副本不是正版 ---解决方案
  15. 微信外卖小程序 怎么计算与客户的距离_3分钟搞定微信小程序类美团用户商家距离计算...
  16. 微博博主侮辱女性 街猫koryili
  17. Linux入门学习——ssh基础操作
  18. java中的\t\r\n\b(Java转义字符)分别是什么?
  19. 冒泡排序的两种方式c语言代码,【C语言】两种方式实现冒泡排序算法
  20. [转载备用]极酷SevenColorPlayer网页播放器(炫彩广告版),最强播放器定制

热门文章

  1. javascript Date对象
  2. C语言rand函数生成随机数详解和示例
  3. freecplus框架-字符串操作
  4. python上传钉钉媒体文件_钉钉媒体文件上传
  5. python调用pipe_Python multiprocessing模块中的Pipe管道使用实例
  6. 小写数字转大写_不得不说的Excel小技巧:设置单元格格式将小写金额转换成大写...
  7. linux如何制作服务,linux把jar做成服务
  8. Vue常用属性和方法
  9. Android 使用代码设置selector 的图片或文字颜色
  10. Java调试打印复杂对象