Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法

环境说明

系统:ubuntu18.04
主机名:test1
用户名:sylvan

hadoop单机安装

换源操作这里不再给出,请各位自行解决。

在Linux环境下完成单机环境的搭建,并运行Hadoop自带的WordCount实例检测是否运行正常。

Java是Hadoop的主要先决条件。首先检查java是否安装:java -version

java未安装,使用sudo apt install openjdk-8-jdk 安装OpenJDK8.
再次检查java是否安装成功:

查看java环境变量是否配置:

无输出,说明环境变量未配置,接下来查找java安装路径,配置环境变量。
先查找java安装路径,发现是:/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java

在/etc/profile里配置java环境变量,配置完成后用echo检查JAVA_HOME成功:

接着下载hadoop-2.10.1,并解压(在 /usr/local/ 里)。


配置hadoop环境变量,并尝试运行hadoop:


这意味着Hadoop在独立模式下工作正常。默认情况下,Hadoop被配置为在非分布式模式的单个机器上运行。

运行WordCount测试

利用hadoop提供的的.jar 文件实现wordcount. 首先,创建输入目录input,接着创建测试文本,在input目录复制几份。

测试文本:

测试文本的复制:

查看hadoop mapreduce例子有哪些功能:
hadoop-mapreduce-examples-2.10.1.jar

启动Hadoop进程计数在所有在输入目录中可用的文件的单词总数,将结果保存到output 文件夹中。

查看 output 文件夹内容:

Hadoop伪分布式搭建

在Linux环境下完成伪分布式环境的搭建,并运行Hadoop自带的WordCount实例检测是否运行正常。

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop-2.10.1/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

首先,配置hadoop的环境变量:(在etc/profile中)

配置hadoop-env.sh文件的java环境变量。

注意:这里要将 ${JAVA_HOME} 替换为之前在 /etc/profile里设置的JAVA_HOME,也就是 export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

mapred-env.sh、yarn-env.sh无需再配置。

接着配置Hadoop的文件列表。

core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息,分配给文件系统存储,用于存储所述数据存储器的限制和大小。

hdfs-site.xml 文件中包含如复制数据的值,NameNode路径的信息,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方。

slave文件添加节点主机,发现已经有localhost,因为是伪分布式,所以无需修改成本机的test1.

格式化namenode

启动hdfs守护进程

查看web端,说明搭建好了Hadoop的hdfs分布式存储,接下来要继续配置Hadoop的mapreduce.

mapred-site.xml 文件用于指定正在使用MapReduce框架,从mapred-site.xml.template 模版复制即可,指定mapreduce程序运行在yarn平台上。

yarn-site.xml 用于配置yarn.


问题:
启动yarn:(yarn)启动失败,JAVA_HOME is not set and could not be found.

问题解决:配置hadoop-env.sh文件里的JAVA_HOME环境变量


启动yarn:

访问集群中的所有应用程序的默认端口号为8088,使用以下URL访问该服务。
查看web端:运行正常

查看节点情况:

运行wordcount实例检测:

在HDFS的根目录下创建一个目录input,将之前的test.txt上传到HDFS。
继续创建一个output输出目录,执行hadoop jar命令,结果输出到output/ part-r-00000文件下。


查看结果:
(报错:/output already exists)

删除,重新执行:

查看结果:

通过网页查看任务完成情况:


可以发现当hadoop集群运行时,会报警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
出现原因:Hadoop 没有成功加载本地库,所以使用了内置的 Java 类库。
解决方法:1. 直接在log中忽略warning;2. 替换hadoop本地库.


关闭hadoop

(分别关闭了namenodes,yarn,resourcemanager,nodemanager)


参考:

  1. Hadoop伪分布搭建,以及简单使用命令
  2. 安装Hadoop 本地模式测试Hadoop,wordcount
  3. Hadoop环境安装设置
  4. 02-Hadoop集群启动测试

Hadoop伪分布式配置和搭建,hadoop单机安装,wordcount实例测试,hadoop安装java目录怎么找,问题及问题解决方法相关推荐

  1. HADOOP 伪分布式集群搭建

    一 linux 环境的搭建 由于笔者这里使用的是vmware 虚拟机 采用centos7 linux 操作系统进行搭建,所以一下示例均以centos7进行示例 1.  搭建vmware 虚拟机 (1) ...

  2. CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware)

    CentOS 7.4安装及Hadoop伪分布式配置(虚拟机:VMware) 准备 VMware虚拟机安装CentOs 7.4 虚拟机创建 CentOS 7.4安装 网络配置 JDK配置 Hadoop伪 ...

  3. hadoop伪分布式环境的搭建配置整理

    本篇是整理了搭建hadoop环境需要的一些配置和步骤,其中有些配置是完全分布式的时候才用的,这里注意需要注意. linux系统设置 1,配置或者搭建集群过程中,全部用root账户登入 2,修改主机名方 ...

  4. hadoop伪分布式配置

    1.1 准备 通过gedit编辑器修改比较方便,因此需先安装gedit. sudo apt-get install gedit 1.2 修改配置文件core-site.xml和hdfs-site.xm ...

  5. Hadoop伪分布式配置试用+eclipse配置使用

    参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html 环境:WinXP+cygwin+hadoop-0.20 ...

  6. hadoop伪分布式配置修改配置文件的时候无法保存(没有权限保存)

    使用gedit ./etc/hadoop/core-site.xml命令打开core-site.xml文件,这是只读方式打开文件,修改完后不能保存. 解决方法:命令前加sudo!

  7. Hadoop单机/伪分布式集群搭建(新手向)

    此文已由作者朱笑笑授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 本文主要参照官网的安装步骤实现了Hadoop伪分布式集群的搭建,希望能够为初识Hadoop的小伙伴带来借鉴意 ...

  8. Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

    给力星 追逐内心的平和 首页 笔记 搜藏 代码 音乐 关于 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 2014-08-09 (updated: 2016 ...

  9. Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0

    Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到 ...

最新文章

  1. C++中利用WebService下载文件
  2. Tensorflow pipeline是什么?
  3. sun java ide,1.6 JAVA IDE安装
  4. 浅谈流处理算法 (1) – 蓄水池采样
  5. 前端学习(3191):react中案例
  6. windows下,‘nmake‘不是内部或外部命令,也不是可运行的程序或批处理文件
  7. context:component-scan扫描使用上的容易忽略的use-default-filters
  8. 对话指令集创始人兼CEO潘爱民:面向未来的新型物联网操作系统 | 人物志
  9. ASP.NET Core MVC 2.x 全面教程_ASP.NET Core MVC 18. 基于Claim和Policy的授权 下 - 自定义Policy...
  10. ES6-异步async await学习
  11. POCO C++库学习和分析 -- 线程 (二)
  12. 开源的物联网技术平台thingsboard安装测试及使用步骤
  13. 数学建模学习1.18——模糊综合评价模型
  14. [网络安全自学篇] 四.实验吧CTF实战之WEB渗透和隐写术解密
  15. SOLIDWORKS Composer生成BOM表属性不显示的解决办法
  16. Linux中更换软件源以及更新软件过程中报错的解决方法
  17. 道路施工安全智能预警
  18. 每到夏天来绵山避暑的游客络绎不绝
  19. html 在线测试 鱼缸,研究员试图用AR鱼缸欺骗鱼的感官系统,结果反被鱼识破
  20. GNN、GCN、GAT关系

热门文章

  1. LeetCode MySQL 1083. 销售分析 II
  2. LeetCode 1016. 子串能表示从 1 到 N 数字的二进制串(bitset)
  3. LeetCode 482. 密钥格式化
  4. POJ 1577 Falling Leaves(二叉查找树)
  5. insert和update 锁等待_黑龙F5智感双全智能锁全球首发,掀起惊艳风潮
  6. java 以太坊 智能合约_web3j教程:java使用web3j开发以太坊智能合约交易
  7. Java求最小数用哪个函数_在Java中使用小数进行计算的函数
  8. 一建机电实务教材电子版_2020一建教材+章节习题+新旧教材对比【全科】免费送...
  9. Leaf:美团分布式ID生成服务开源 1
  10. 论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...