HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。

1)部署单节点伪分布

单节点Ubuntu,主机名hp

第一步:先安装JDK和SSH,并配置SSH无密码登录。

JDK解压安装在/home/hp下。

安装SSH:$sudo apt-get install ssh

安装rsync:$sudo apt-get install rsync

生成密钥:$ssh-keygen–t rsa –f /home/hp/.ssh/id_rsa

授权访问:$cat/home/hp/.ssh/id_rsa.pub>>/home/hp/.ssh/authorized_keys

测试:sshlocalhost

第二步:Hadoop解压在/home/hp并配置core-site.xml和hdfs-site.xml

创建如下文件夹

$mkdir tmp

$mkdir hdfs

$mkdir hdfs/data

$mkdir hdfs/name

设置$geditetc/hadoop/core-site.xml

fs.defaultFS值为hdfs://hp:9000

<property>

<name>fs.defaultFS</name>

<value>hdfs://hp:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hp/hadoop/tmp</value>

</property>

设置$geditetc/hadoop/hdfs-site.xml

dfs.replication值为1

<property>

<name>dfs.namenode.name.dir</name>

<value>/home/hp/hadoop/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/home/hp/hadoop/dfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hp:9001</value>

</property>

设置hosts:$sudo gedit /etc/hosts

注释所有行, 追加:

127.0.0.1 hp

127.0.0.1localhost

设置etc/hadoop/hadoop-env.sh的Java路径

$bin/hdfsnamenode –format

启动集群$sbin/start-dfs.sh

http://127.0.0.1:50070 打开页面验证单节点伪分布已成功。

第三步:如要运行在yarn上,则配置mapred-site.xml和yarn-site.xml

$geditetc/hadoop/mapred-site.xml

mapreduce.framework.name值为yarn

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

$geditetc/hadoop/yarn-site.xml

yarn.nodemanager.aux-services值为mapreduce_shuffle

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

设置etc/hadoop/yarn-env.sh的Java路径

启动yarn$sbin/start-yarn.sh

http://127.0.0.1:8088 验证启动成功。

2)运行wordcount作业-使用yarn

第一步:在HDFS中创建input文件目录:$bin/hadoop fs –mkdir /input

第二步:上传文件到hdfs的input目录下

$bin/hadoopfs –put LICENSE.txt /input

本文这里用hadoop安装目录下的LICENSE.txt文件作为wordcount的输入。

$bin/hadoopfs -ls /input

查看文件是否正确传入到/input目录下

$bin/hadoopfs -cat /input/LICENSE.txt查看文件内容

第三步:执行

$bin/hadoop jar

/home/hp/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jarwordcount /input /output

第四步:查看结果

$bin/hadoopfs -ls /output

查看输出结果的目录

$bin/hadoopfs -cat /output/part-r-00000

3)运行wordcount作业-不使用yarn

如果不使用yarn,进行mapreduce.job.tracker配置用MRv1来执行job,不需要启动nodemanager。

设置$geditetc/hadoop/mapred-site.xml

<property>

<name>mapreduce.job.tracker</name>

<value>hdfs://hp:8001</value>

<final>true</final>

<property>

启动sbin/start-dfs.sh和sbin/start-yarn.sh后执行

$bin/hadoop jar

/home/hp/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jarwordcount /input /output2

查看结果

$bin/hadoopfs -ls /output2

查看输出结果的目录

$bin/hadoopfs -cat /output2/part-r-00000

关闭sbin/stop-dfs.sh和sbin/stop-yarn.sh

总结:过程中,面对不断出现的错误需要查阅资料并调整配置,慢慢理解到整体框架,但深入研究还有待时日。

Hadoop系列二:Hadoop单节点伪分布部署并执行mapreduce示例wordcount相关推荐

  1. Hadoop 单节点 伪分布 安装手记

    实验环境 CentOS 6.X Hadoop 2.6.0 JDK    1.8.0_65 目的 这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS ...

  2. linux 运行 chom,Hadoop安装-单节点/伪分布(2.7.3)

    1,下载Hadoop 目前在Ubuntu的软件库里面  没有发现Hadoop的压缩包,没猜错Hadoop不是可执行文件 只是一个压缩包吧!所以我们只能自己到官网下载(http://hadoop.apa ...

  3. Apache Hadoop 2.4.1 单节点安装

    2019独角兽企业重金招聘Python工程师标准>>> 一.目的 这篇文档描述了怎样去安装和配置一个单节点的Hadoop,因此您可以使用Hadoop MapReduce 和 Hado ...

  4. Hadoop教程(二)Hadoop伪集群环境安装

    Hadoop教程(二)Hadoop伪集群环境安装 本文链接:https://blog.csdn.net/yuan_xw/article/details/50039325 Hadoop教程(二)Hado ...

  5. Hadoop伪分布部署

    一.在hadoop中执行 在/opt/module/hadoop-3.1.3/share/hadoop/mapreduce 目录中执行文件 命令:hadoop jar hadoop-mapreduce ...

  6. Hadoop系列文章 Hadoop架构、原理、特性简述

    Hadoop系列文章 Hadoop架构.原理.特性简述 Hadoop HDFS HDFS介绍 HDFS架构图 HDFS写入数据流程图 HDFS读取数据流程图 数据块的副本集 Hadoop YARN Y ...

  7. 菜鸟也学hadoop(1)_搭建单节点的hadoop

    其实跟官方的教程一样 只是 我想写下来 避免自己搞忘记了,,,,好记性不如烂笔头 首先确认自己是否安装了 java, ssh 以及 rsync 没有装的直接就 apt-get install 了嘛,, ...

  8. hadoop基础----hadoop实战(二)-----hadoop操作hdfs---hdfs文件系统常用命令

    我们在前面已经介绍过了 hadoop 1.0是由2大部分组成的: hdfs + mapreduce 也对hdfs做了相关介绍. hadoop基础----hadoop理论(三)-----hadoop分布 ...

  9. OpenShift 4 - 在单节点 OpenShift 上部署 ODF 存储软件

    <OpenShift / RHEL / DevSecOps 汇总目录> 说明:本文已经在支持 OpenShift 4.12 的 OpenShift Local 环境中验证 文章目录 什么是 ...

最新文章

  1. 人民日报点名批评互联网社区团购,各种“买菜”软件要黄?程序员们:感觉白加班了!...
  2. [LeetCode] 1091. Shortest Path in Binary Matrix
  3. 《JavaScript高级程序设计》第8-9章
  4. vs2017怎么安装python包,vs2017安装pygame,vs2017安装python第三方包
  5. 通达信板块监控指标_通达信洞察强势板块指标公式
  6. 打破“打工人”魔咒,RPA 来狙击!
  7. 一般不要在头文件中定义变量
  8. MDI Jade6的安装(含ocx控件的安装、PDF索引建立、修改注册表)
  9. 如何快捷修改eclipse黑色背景和字体颜色设置?
  10. python- 小猫钓鱼纸牌游戏
  11. 2018区块链技术及应用峰会(BTA)倒计时2天,最强百人区块链大咖齐聚
  12. Cesium基础知识-粒子应用-汽车冒烟
  13. 【老九学堂】【Java】集合框架
  14. SP2-0734: unknown command beginning lsnrctl st... - rest of line ignored.
  15. 【解决方案】如何结合智慧工地上云平台实现视频监控的多终端观看?
  16. 富有组织性是通往成功的必要习惯
  17. python数字金额转换为中文大写金额(角、分)
  18. 根据IP获取地理位置信息 — Golang
  19. hdu_5620_KK's Steel(水题)
  20. 新年寄语 给自己吧

热门文章

  1. python使用redis队列_Python的Flask框架应用调用Redis队列数据的方法
  2. eplan增加其他到工具栏_EPLAN增效之工具栏定制(十三:端子排编辑不进导航器)
  3. js实现撤销恢复_我们常用的撤销和恢复功能,它们使用了什么设计模式实现吗?...
  4. 论CSS样式的使用以及常用属性
  5. linux常见操作命令及相关延伸
  6. 借用的对vue-cli配置对解析
  7. 使用HTML+CSS实现鼠标划过的二级菜单栏
  8. Lodop 分页详解,可详细了呢
  9. close和shutdown的区别
  10. 下一代Asp.net开发规范OWIN(2)—— Katana介绍以及使用