文章目录

前言
一、创建 Ubuntu 用户
二、安装 Java
- 2.1、查看本地 Java 版本
- 2.2、验证 Java 在本地的配置情况
三、安装 ssh 服务
- 3.1、安装 openssh-server
- 3.2、查看 ssh 服务是否启动
四、Hadoop 伪分布式安装
- 4.1、Hadoop 下载
- 4.2、进入下载安装包的目录
- 4.3、Hadoop 解压
- - 4.3.1、解压命令 tar zxvf 中 zxvf 分别是什么意思？
  - 4.3.2、查看 Hadoop 解压后目录文件
  - 4.3.3、转移 Hadoop 安装路径
- 4.4、检查 Hadoop 目录所有者权限
- 4.5、修改 Hadoop 目录所有者权限
- 4.5、查看 Hadoop 目录结构
- 4.6、Hadoop 约定目录结构分析
- 4.7、Hadoop 中的配置文件分析
- 4.8、设置 Hadoop 环境变量
五、准备启动 Hadoop 集群
- 5.1、启动 Hadoop 集群的准备工作
- 5.2、Hadoop 脚本的用法文档
- 5.3、查看 Hadoop 的版本信息
六、伪分布式操作
- 6.1、修改配置文件
- 6.2、执行 NameNode 初始化
- 6.3、开启 NameNode 和 DataNode 守护进程
- 6.4、查看所有的 Java 进程
七、访问 Web 界面来查看 Hadoop 的信息
八、关闭 Hadoop
总结

前言

本文为大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析，以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例。本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章，我个人是很有自信的，一篇文章掌握一门课程核心技术点。

一、创建 Ubuntu 用户

关于创建 Ubuntu 用户的内容这里不做详细叙述了，需要的同学请参考我之前的文章：Ubuntu 答疑：Ubuntu 添加和删除用户具体步骤及进程被占用的解决方式。

二、安装 Java

对于 Ubuntu 本身，系统可能已经预装了Java，它的 JDK 版本类型为 openjdk，路径为"/usr/lib/jvm/default-java"，之后配置 JAVA_HOME 环境变量我们可设置为该值。其具体位置如下图所示：

Apache Hadoop 的 2.7 版和更高版本需要 Java 7。它是在 OpenJDK 和 Oracle（HotSpot）的 JDK / JRE 上构建和测试的。早期版本（2.6 和更早版本）支持 Java 6。

2.1、查看本地 Java 版本

我们输入 java -version 查看本地 jdk 版本号，没安装的话输入同样指令，可以根据提示下载需要版本，具体如下图所示：

2.2、验证 Java 在本地的配置情况

输入 javac，显示命令参数列表，说明配置成功，不显示请根据提示安装，具体如下图所示：

三、安装 ssh 服务

需要具体安装 SSH 无密码登陆参考的同学可以看我之前的文章： ssh 配置：在 Linux 中 ssh 配置无密码登陆完整步骤以及易错点分析。

对于 Hadoop 的伪分布式和全分布式而言，Hadoop 的名称节点（NameNode）需要启动集群中所有机器的 Hadoop 的守护进程，这个过程可以通过 SSH 登陆来实现。Hadoop 并没有提供 SSH 输入密码登陆的形式，因此为了能够顺利登陆每台机器，需要将所有机器配置为名称节点可以无密码登陆的形式。

3.1、安装 openssh-server

安装 openssh-server，在终端输入如下代码：

sudo apt install openssh-server

本人已经安装，具体如下图所示：

3.2、查看 ssh 服务是否启动

输入如下代码：

sudo ps -e|grep ssh

回车，有 sshd，说明 ssh 服务已经启动，具体如下图所示：

如果没有启动，输入sudo service ssh start，回车，ssh 服务就会启动。

四、Hadoop 伪分布式安装

伪分布式安装是指在一台机器上模拟一个小的集群，但是集群只有一个节点。

4.1、Hadoop 下载

在 Linux 系统/Ubuntu 上打开自带火狐浏览器，输入地址 https://hadoop.apache.org/，打开 Hadoop 的页面，点击 Download 进行下载，具体如下图所示：

我们选择所需版本的 binary 链接，进入，具体如下图所示：

点击第一个镜像链接，进入下载页面，具体如下图所示：

4.2、进入下载安装包的目录

cd /home/bailu/下载

这里根据自己目录输入，我的如下图所示：

4.3、Hadoop 解压

对下载的 Hadoop 压缩包执行解压命令如下：

sudo tar -zxvf hadoop-3.2.1.tar.gz

4.3.1、解压命令 tar zxvf 中 zxvf 分别是什么意思？

x : 从 tar 包中把文件提取出来。
z : 表示 tar 包是被 gzip 压缩过的，所以解压时需要用 gunzip 解压。
v : 显示详细信息。
f xxx.tar.gz : 指定被处理的文件是 xxx.tar.gz。

4.3.2、查看 Hadoop 解压后目录文件

输入 ll 查看下载目录下的文件和目录，会看到多了一个目录 hadoop-3.2.1，这是安装包解压后的目录，具体如下图所示：

4.3.3、转移 Hadoop 安装路径

在下载目录下输入如下命令，将 hadoop-3.2.1 目录转移到 usr/local/hadoop 中：

sudo mv hadoop-3.2.1 /usr/local/hadoop

目标文件夹如下图所示：

4.4、检查 Hadoop 目录所有者权限

我们进入 Hadoop目录，可能会发现文件带锁，输入 ll 查看所有者不是本人，具体如下图所示：

4.5、修改 Hadoop 目录所有者权限

这时我们就需要将 Hadoop 目录的所有者更改，根目录输入如下命令：

sudo chown bailu:bailu -R /usr/local/hadoop

具体如下图所示：

修改之后我们可以看到所有者已经更改，具体如下图所示：

4.5、查看 Hadoop 目录结构

根目录输入 cd /usr/local/hadoop 进入 Hadoop 目录，输入 ll 查看 Hadoop 下目录结构，具体如下图所示：

4.6、Hadoop 约定目录结构分析

bin：Hadoop 最基本的管理脚本和使用脚本所在目录，这些脚本是 sbin 目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用 Hadoop。
etc：Hadoop 配置文件所在目录，包括 core-site.xml，hdfs-site.xml，mapred-site.xml 等从 hadoop 1.0 继承而来的配置文件和 yarn-site.xml 等 hadoop 2.0 新增的配置文件。
include：对外提供的编程库头文件（具体动态库和静态库在 lib 目录中），这些头文件均是用 c++ 定义的，通常用于 c++ 程序访问 hdfs 或者编写 mapreduce 程序。
lib：该目录包含了 Hadoop 对外提供的的编程动态库和静态库，与 include 目录中的头文件结合使用。
libexec：各个服务对应的 shell 配置文件所在目录，可用于配置日志输出目录，启动参数（比如 JVM 参数）等基本信息。
sbin：Hadoop 管理脚本所在目录，主要包含 HDFS 和 YARN 中各类服务的启动/关闭脚本。
share：Hadoop 各个模块编译后的 jar 包所在目录。

4.7、Hadoop 中的配置文件分析

文件名称	格式	描述
hadoop-env.sh	Bash 脚本	记录配置 Hadoop 运行所需的环境变量，以运行 Hadoop
core-site.xml	Hadoop 配置 XML	Hadoop core 的配置项，如 HDFS 和 MapReduce 常用的 I/O 设置等
hdfs-site.xml	Hadoop 配置 XML	Hadoop 守护进程的配置项，包括 NameNode、Secondary NameNode 和 DataNode 等
mapred-site.xml	Hadoop 配置 XML	MapReduce 守护进程的配置项，包括 JobTracker 和 TaskTracker
masters	纯文本	运行 SecondaryNameNode 的机器列表（每行一个）
slaves	纯文本	运行 DataNode 和 TaskTracker 的机器列表（每行一个）
hadoop-metrics.properties	Java 属性	控制 metrics 在 Hadoop 上如何发布的属性

4.8、设置 Hadoop 环境变量

接下来我们需要设置 Hadoop 环境变量，编辑 ~/.bashrc，任意目录下输入如下代码：

sudo gedit ~/.bashrc

具体如下图所示：

让环境变量立即生效，输入命令： source ~/.bashrc，具体如下图所示：

五、准备启动 Hadoop 集群

5.1、启动 Hadoop 集群的准备工作

在任意目录下输入如下代码：

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/hadoop-env.sh

编辑 etc/hadoop/hadoop-env.sh 以定义一些参数，将原文本文件中的 JAVA_HOME 设置成真实的 JDK 地址，具体如下所示：

  ＃设置为 Java 安装的根目录export JAVA_HOME =/usr/java/latest

5.2、Hadoop 脚本的用法文档

尝试以下命令：Hadoop 根目录下输入 bin/hadoop 这将显示 Hadoop 脚本的用法文档，具体如下图所示：

5.3、查看 Hadoop 的版本信息

这时我们可以查看 Hadoop 的版本信息，输入如下命令：

 ./bin/hadoop version

具体如下图所示：

六、伪分布式操作

6.1、修改配置文件

对于伪分布式，仅需修改 core-site.xml、hdfs-site.xml 文件，详细修改如下。

对于 etc/hadoop/core-site.xml，输入命令如下：

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/core-site.xml

修改之后如下图所示：

说明：

<name> 标签设置配置项的名字，<value> 设置配置项的值。
对于 core-site.xml 文件，只需在其中指定 HDFS 的地址和端口号，端口号按照官方文档设置为 9000 即可。

对于 etc/hadoop/hdfs-site.xml，输入命令如下：

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/hdfs-site.xml

修改之后如下图所示：

说明：

对于 hdfs-site.xml 文件，我们设置 replication 值为 1，这也是 Hadoop 运行的默认最小值，它限制了 HDFS 文件系统中同一份数据的副本数量。
这里采用伪分布式，在集群中只有一个节点，因此副本数量 replication 的值也只能设置为 1。

6.2、执行 NameNode 初始化

在配置完成后，首先需要初始化文件系统。由于 Hadoop 的很多工作是在自带的 HDFS 文件系统上完成的，因此需要将文件系统初始化之后才能进一步执行计算任务。

在 Hadoop 根目录执行 NameNode 初始化的命令如下：

./bin/hdfs namenode -format

具体如下图所示：

遇到这一步，继续执行，具体如下图所示：

成功的话，会看到"successfully formatted"和"Exitting with status"的提示，若为"Exitting with status 1"则是出错。

如果出现启动错误，则可以在日志中查看错误原因，具体如下图所示：

对于控制台报错请注意：

每一次的启动日志都是追加在日志文件之后，所以对于错误要拉到最后面看，对比下记录的时间就知道了。
一般出错的提示在最后面，通常是写着 Fatal、Error、Warning 或者 Java Exception 的地方。

6.3、开启 NameNode 和 DataNode 守护进程

输入如下命令：

./sbin/start-dfs.sh

具体如下图所示：

6.4、查看所有的 Java 进程

运行之后，输入 jps 指令可以查看所有的 Java 进程。在正常启动时，可以得到如下类似结果，具体如下图所示：

说明：jps(Java Virtual Machine Process Status Tool)是 java 提供的一个显示当前所有 Java 进程 pid 的命令，适合在 linux/unix 平台上简单察看当前 Java 进程的一些简单情况。很多人都是用过 unix 系统里的 ps 命令，这个命令主要是用来显示当前系统的进程情况，有哪些进程以及进程 id。

jps 也是一样，它的作用是显示当前系统的 Java 进程情况及进程 id。我们可以通过它来查看我们到底启动了几个 Java 进程（因为每一个 Java 程序都会独占一个 Java 虚拟机实例）。

七、访问 Web 界面来查看 Hadoop 的信息

此时，可以通过 Linux 本地浏览器访问 Web 界面（http://localhost:9870）来查看 Hadoop 的信息，具体如下图所示：

如果存在 DataNode 启动异常时或者没有启动的问题，请查看：Apache Hadoop 答疑：解决 Apache Hadoop 启动时 DataNode 启动异常的问题。具体如下图所示：

八、关闭 Hadoop

若要关闭 Hadoop，则在 Hadoop 根目录下运行如下命令：

./sbin/stop-dfs.sh

具体如下图所示：

总结

本文是本专栏文章的第四篇，也是做重要的一篇，后期的 Hadoop 生态体系均是围绕本文展开，同时补充了一些 linux 系统操作的相关知识，对于巩固 linux 系统也是有一定的帮助。简而言之，如果你切实掌握了本文的内容，那么你后期学大数据的其他组成部分也就轻车熟路了。

我是白鹿，一个不懈奋斗的程序猿。望本文能对你有所裨益，欢迎大家的一键三连！若有其他问题、建议或者补充可以留言在文章下方，感谢大家的支持！

大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析相关推荐

hadoop在ubuntu上的安装流程
第一部分安装ssh服务更新源列表打开"终端窗口",输入"sudo apt-get update"-->回车-->"输入当前登录用户的 ...
大数据基础系列 5：Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作
文章目录前言一.实验目的二.实验平台三.实验内容和要求 3.1.HDFS 目录操作 3.1.1.创建用户目录 3.1.2.显示 HDFS 中与当前用户对应的目录内容 3.1.3.列出 HDFS ...
大数据基础系列 1：Windows 安装 VMware Workstation 虚拟机完整步骤及需要注意的问题
文章目录前言一.下载正版虚拟机不同版本 1.1.通过官网进行下载 VM 虚拟机 1.1.1.选择所需版本下载 1.1.2.VM 15.1.0 Pro for Windows 下载 1.2.免注册账 ...
大数据开发系列（一）----Hadoop集群环境配置
配置成功,jps显示如下: HDFS ...
大数据基础之Scala——Scala数组方法，史上最全，只要你能全部背上即可成为万人敬仰的大佬，任何Scala随便戳戳！！！
Scala数组数组是一种可变的.可索引的数据集合.在Scala中用Array[T]的形式来表示java中的数组形式T[ ]. //声明一个数组对象方法一:var numbers:[String]= ...
大数据生态系统修仙之道 Hadoop Blog
大数据生态系统修仙之道 Hadoop Blog @(2019-01-22)[Docs Language:简体中文 & English|Programing Language:Hadoop|W ...
成为国产大数据基础软件第一股的星环科技，未来发展空间几何？ | 爱分析调研
10月18日,星环科技正式登陆科创板,成为国产大数据基础软件第一股.这一事件不仅代表了星环科技这家公司取得的阶段性成就,也标志着在当前数字化转型以及信创建设持续推进的背景下,国产大数据基础软件已驶入了 ...
星环科技将上市：募资近20亿成国产大数据基础软件第一股
雷递网雷建平 9月23日星环信息科技(上海)股份有限公司(简称:"星环科技")已进入发行阶段,准备在科创板上市. 一旦在科创板上市,星环科技将成为国产大数据基础软件第一股. 星 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析

文章目录

前言

一、创建 Ubuntu 用户

二、安装 Java

2.1、查看本地 Java 版本

2.2、验证 Java 在本地的配置情况

三、安装 ssh 服务

3.1、安装 openssh-server

3.2、查看 ssh 服务是否启动

四、Hadoop 伪分布式安装

4.1、Hadoop 下载

4.2、进入下载安装包的目录

4.3、Hadoop 解压

4.3.1、解压命令 tar zxvf 中 zxvf 分别是什么意思？

4.3.2、查看 Hadoop 解压后目录文件

4.3.3、转移 Hadoop 安装路径

4.4、检查 Hadoop 目录所有者权限

4.5、修改 Hadoop 目录所有者权限

4.5、查看 Hadoop 目录结构

4.6、Hadoop 约定目录结构分析

4.7、Hadoop 中的配置文件分析

4.8、设置 Hadoop 环境变量

五、准备启动 Hadoop 集群

5.1、启动 Hadoop 集群的准备工作

5.2、Hadoop 脚本的用法文档

5.3、查看 Hadoop 的版本信息

六、伪分布式操作

6.1、修改配置文件

6.2、执行 NameNode 初始化

6.3、开启 NameNode 和 DataNode 守护进程

6.4、查看所有的 Java 进程

七、访问 Web 界面来查看 Hadoop 的信息

八、关闭 Hadoop

总结

大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析相关推荐

最新文章

热门文章