【Hadoop】伪分布式安装---MapReduce程序运行到YARN上，编写MapReduce程序---HDFS yarn

在我的虚拟机（Linux）上安装的Hadoop是2.7.3版本的，安装过程可以参考这个网站，也可以下载。

http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

（1）首先先传解压

（2）查看目录结构

需要删除bin/*.cmd sbin/*.cmd share/doc cmd(指的是Windows上执行的命令，者Linux中是不需要的，可以删除)

（3）修改三个模块的环境变量（*.env）

Hadoop-env.sh yarn-en.sh mapred-env.sh 配置者三个里面的环境变量（JAVA_HOME）并且添加可执行权限

chmod u+x Hadoop-env.sh yarn-env.sh mapred-env.sh

（4）按照模块来进行配置

下面介绍四个模块的配置以及运行过程

Common模块:

需配置该模块下的core.site.xml

这是配置文件的网站：

http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html（配置文件）

需配置的内容：

<name>fs.defaultFS</name>

<value>hdfs://bigdata-hpsk01.huadian.com:8020</value>

</property>

<!--指定文件系统的本地临时存储目录，默认是当前系统/tmp，这里需要去执行创建临时目录--/opt/modules/hadoop-2.7.3/data/tmpData >

<name>hadoop.tmp.dir</name> <value>/opt/modules/hadoop-2.7.3/data/tmpData</value>

</property>

HDFS: 需配置该模块下的hdfs-site.xml（需配置的内容如下）

<!--由于是伪分布式部署，仅有一台机器

所有block副本数没有必要设置为3，设置为1即可-->

<name>dfs.replication</name>

</property>

还需要配置slaves（配置slaves文件，指定datanode运行在那些机器上）

将原来的localhost修改为Linux的hostname（比如我的：bigdata-hpsk01.huadian.com 这里是自己设置的）如果有多个从节点，那就需要配置多个，原则上是一行一个主机名。

启动HDFS：第一次使用文件系统，需要格式化。

第一次使用文件系统，需要格式化。

操作的步骤	需输入的命令		备注
格式系统	cd /opt/modules/hadoop-2.7.3 bin/hdfs namenode -format
启动	主节点 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh stop namenode 从节点 sbin/hadoop-daemon.sh start datanode sbin/hadoop-daemon.sh stop datanode		这个每次都需要手动开启或关掉
验证是否启动成功	方式一: jps, ps -ef \|grep java 方式二: 通过webUI 界面查看 bigdata-hpsk01.huadian.com:50070		通过着两种方式去查看是否启动失败或者成功
测试HDFS	帮助文档 bin/hdfs dfs		HDFS文件系统目录和Linux目录结构类似，命令也类似
下面这些操作都是属于测试HDFS的内容：这些命令需要进入到Hadoop-2.7.3下去执行
创建目录	bin/hdfs dfs -mkdir /datas	在HDFS上创建/datas目录，需要在浏览器上查看
查看目录	bin/hdfs dfs -ls /datas bin/hdfs dfs -ls /	由于创建的时候目录里面没有内容，所以可以使用下面的这个查看创建是否成功
上传文件	bin/hdfs dfs -put /opt/datas/input.data /datas/	需要现在/opt目录下创建一个datas目录，然后再在datas目录下创建一个文件input.data,这个是需要上传的文件
查看文件内容	bin/hdfs dfs -text /datas/input.data bin/hdfs dfs -cat /datas/input.data
下载文件	bin/hdfs dfs -get /datas/input.data ./	下载到当前目录
删除文件	bin/hdfs dfs -rm -r /datas/input.data	这里可以是-r –f,不能是-rf

格式化

出现的状态

启动主从节点

HDFS帮助文档

上传文件

查看文件内容

删除文件

配置YARN：

对于分布式资源管理和任务调度来说,哪些程序可以运行在YARN之上

运行在yarn上的程序		执行的任务		备注
MapReduce		并行数据处理框架
spark		基于内存分布式处理框架		实时数据处理
storm/flink		实时流式处理框架
TeZ		分析数据，比 MapReduce速度快
Yarn的主从节点：主节点：resourceManager 从节点：nodeManager
需要修改的配置	yarn-site.xml		修改的内容： <!--resourceManager服务运行的主机名称--> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata-hpsk01.huadian.com</value> </property> <!--告知yarn ，mapreduce程序将在你这里运行--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> slaves文件：前面已经修改了，如果有多个也可以修改
启动 yarn			主节点：resourceManager sbin/yarn-daemon.sh start resourcemanager 从节点：nodeManager sbin/yarn-daemon.sh start nodemanager
验证			方式一：jps === ps -ef \|grep java 方式二：bigdata-hpsk01.huadian.com:8088（UI界面）

启动yarn进程（主从节点）

下一篇将继续详细介绍剩余两个模块的配置以及运行的过程。