一、下载

CentOS 7/64位下载地址：
pan.baidu.com/s/1HLbQrE5M2UW1S7KFBuFLZQ
提取码: 24d4
Xshell：https://www.netsarang.com/download/free_license.html
Hadoop：https://hadoop.apache.org/releases.html
JDK包：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

二、安装步骤

（一）、虚拟机安装

1、选中【CentOS 7】压缩包，鼠标右击选择【解压到CentOS 7】。
2、双击打开【CentOS 7】文件夹。
3、选中【VMware-workstation-full-14.0.0.24051】鼠标右击选择【以管理员身份运行】。
4、等待一会儿，点击【下一步】。
5、勾选【我接受许可协议中的条款】，点击【下一步】。
6、点击【更改】，来更改软件的安装目录建议安装在除C盘之外的磁盘，可在D盘或者其他磁盘新建【VMware Workstation】文件夹，点击【下一步】
7、取消勾选，点击【下一步】。
8、点击【下一步】。
9、点击【安装】。
10、点击【许可证】。
11、输入：AA510-2DF1Q-H882Q-XFPQE-Q30A0，点击【输入】。
12、点击【完成】。

（二）、CentOS7安装

1、在桌面找到【VMware Workstation Pro】，双击打开。
2、点击【创建新的虚拟机】。
3、选择【典型】，点击【下一步】。
4、选择【稍后安装操作系统】，点击【下一步】。
5、选择【Linux】，版本选择【CentOS 7 64位】，点击【下一步】。
6、虚拟机名称输入【CentOS 7 64位】，点击【浏览】更改系统的安装位置，建议安装在出C盘之外的磁盘，可在F盘或其他磁盘新建【CentOS 7】文件夹，点击【下一步】。
7、更改最大磁盘大小为60G，点击【下一步】。
8、点击【自定义硬件】。
9、点击【内存】，设置为【2048MB】。
10、选择【新CD/DVD(SATA)】后选择【使用ISO镜像文件】，点击【浏览】找到并选择解压后【CentOS 7】文件夹里面的【CentOS-server-7.0】这个镜像。
11、点击【网络适配器】,网络连接选择【仅主机模式】。
12、选中【USB控制器】,点击【移除】。
13、选中【打印机】,点击【移除】然后点击【关闭】。
14、点击【完成】。
15、选中【CentOS 7 64位】，点击【开启此虚拟机】。
16、用键盘上的上下箭头，选择【Install CentOS 7】,然后按键盘上的回车键。
17、正在加载镜像。
18、选择【中文】，点击【继续】。
19、点击【软件选择】。
20、选择【带GUI的服务器】,点击【完成】。
21、点击【网络和主机名】。
22、点击【完成】。
23、点击【安装位置】。
24、不做修改，点击【完成】。
25、点击【开始安装】。
26、点击【Root密码】。
27、输入Root密码，然后点击【完成】温馨提示：如果输入的密码较弱需要点击两次【完成】。
28、CentOS 7安装中(大约30分钟)。
29、安装完成，点击【重启】。
30、重启后不要有任何操作。
31、点击【LICENSE INFORMATION】。
32、勾选【我同意许可协议】,点击【完成】。
33、点击【完成配置】。
34、选择【汉语】。
35、点击【汉语】。
36、点击【前进】。
37、在输入框中输入【上海】，然后点击【前进】。
38、点击【跳过】。
39、建立【本地用户】，点击【前进】。
40、设置本地账户的密码，点击【前进】。
41、点击【开始使用 CentOS Linux】。
42、CentOS系统安装完成。

（三）、Xmanager Enterprise 5安装

下载并安装Xmanager Enterprise 5，安装过程也是一路的下一步。

（四）、Linux虚拟机网络配置

1、编辑Vmware的网络模式，在Vmware菜单栏中选择【编辑】>>【虚拟网络编辑器】，打开虚拟网络编辑器对话框，将VMnet1的子网IP改为192.168.1.0。
2、启动虚拟机，进入CentOS登陆界面，使用root登陆主机，在桌面点击右键打开终端。
3、输入ifconfig查看网卡信息。
4、输入nmcli connection modify ens32 ipv4.addresses ‘192.168.1.10/24’ ipv4.method manual autoconnect yes配置IP为192.168.1.10

（五）、Xshell工具使用

打开Xshell，进入新建会话对话框，配置连接名称和linux主机的IP，然后在用户身份验证界面输入账号密码，即可完成连接配置。然后连接该会话，如弹出安全警告，选择【接受并保存】即可。

（六）、Linux节点配置

1、设置主机名：根据规划修改主机名，执行hostnamectl set-hostname hdoop1，修改主机名并写入配置文件，使用hostname查看当前生效的主机名。
2、关闭防火墙：使用systemctl命令关闭防火墙，stop是本次关闭，disable是下次开机也不会启动（永久关闭）。这里我们需要使用disable彻底关闭。
3、停止selinux：使用getenforce命令可以查询selinux状态，使用setenforce命令设置状态 0表示允许通过（即本次关闭selinux，下次启动还会还原，要想永久关闭，则需要使用vim编辑配置文件，下图为getenforce和setenforce的使用）
vim编辑器的简要使用说明：

vim编辑器有三种状态：普通模式，编辑模式，命令模式

普通模式按i键进入编辑模式，按esc键回普通模式

普通模式进入命令模式，直接在普通模式下输入（冒号加命令）

:q!(不保存退出) :q(直接退出)

:w(保存不退出) :wq(保存退出)

selinux的配置文件目录：etc/selinux/config

输入命令:vim /etc/selinux/config 即可打开配置文件编辑，按i键进入编辑模式，修改为如下结果，修改好后按Esc键退出编辑模式，直接输入 :wq，按Enter键退出。cat为查看文件命令。
4、利用VMware克隆另外两个节点：利用节点1的虚拟机克隆出另外两台节点虚拟机，克隆完成后按规划修改主机名和IP地址。分别为hadoop2节点IP为192.168.1.20，hadoop3节点IP为192.168.1.30，修改方法与前面一致，修改后记得重启。
5、设置主机名和IP对应：每个节点都要设置 ，写法是一样的，完成之后可以直接ping主机名来测试是否设置成功。输入vim /etc/hosts打开配置文件编辑，修改为如下结果。（三个节点都是一样的方式）。
6、设置ssh互信：ssh免密码登录如果不配置，在启动集群时候需要输入每个节点的密码方可启动，为避免多次输入密码，可配置ssh免密码登录。下面以hadoop1为例，首先生成密钥，然后将密钥传给其它节点，也要传给自己。（另外两个节点也要做，做法是一样的，如下所示）。

首先，生成密钥：ssh-keygen （敲三次回车）

然后将密钥传给其它节点（包括自己），每个节点都要做，命令格式如下：
用ssh测试一下能否直接登陆（下图是从节点1登陆至节点2和节点3）
7、目录建立：根据规划为每个节点创建目录文件夹。

节点1：hadoop1
节点2：hadoop2
节点3：hadoop3

（七）、JDK安装配置

若版本为jdk-8u211-linux-x64.tar.gz

1、拷贝JDK包至节点机：首先使用Xftp将JDK安装文件传输至Linux节点机，打开Xftp工具，配置会话，在Xftp工作区左侧打开物理机需要上传软件所在的目录，再在右侧打开节点机hadoop1的目的目录（/hadoop/soft），将文件由左侧拖至右侧即可。
2、解压JDK:
首先输入cd /hadoop/soft切换目录到soft
然后输入命令 tar -zxvf jdk-8u211-linux-x64.tar.gz进行解压，解压完成后即可输入ls看到蓝色的JDK文件夹
3、编辑环境变量：
配置root用户的环境变量，切换至家目录（输入cd /root），使用vim .bash_profile编辑环境变量。
相应位置添加如下内容
JAVA_HOME=/hadoop/soft/jdk1.8.0_211
（161根据相应版本自行改变）
:$JAVA_HOME/bin

4、验证：使用source .bash_profile重新加载环境变量，使用命令java –version查看现在java的版本，看能否成功执行，结果如下。（161应为相应版本211）
5、其它节点安装：将节点hadoop1上的Java拷贝到另外两个节点上，然后分别登陆至两个节点，按上面的方法设置另外两个节点的环境变量。完成后重新加载环境变量，查看版本（211）验证一下。

（八）、Hadoop安装配置

若版本为hadoop-2.7.1_64bit.tar.gz

1、将Hadoop软件包上传至节点1：利用Xftp将物理机上的hadoop-2.7.1_64bit.tar.gz传输至节点1上（/hadoop/soft）目录下。
2、解压Hadoop： tar -zxvf hadoop-2.7.1_64bit.tar.gz
3、进入Hadoop配置文件目录：如下图所示
4、编辑Hadoop配置文件：需要编辑hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。(小建议：可以用Xftp将这些文件复制到windows系统上，用Notepad++修改保存，然后在复制到每个节点相应的文件夹里覆盖原来的)。当然，也可在linux下用vim编辑这些文件，只是较为不便。

a.设置hadoop-env.sh和yarn-env.sh中的java环境变量
b.配置core-site.xml文件

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.1.10:9000</value>
</property>
<property>
<name>hadoop,tmp.dir</name>
<value>/hadoop/tmp/</value>
</property>
</configuration>

c.配置hdfs-site.xml文件

<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>192.168.1.10:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.1.20:50090</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///hadoop/nn</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///hadoop/dn</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:///hadoop/secondarynn</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

d.配置mapred-site.xml文件（由于默认没有mapred-site.xml文件，只有一个mapred-site.xml.template文件，可以将这个template文件重命名为mapred-site.xml）

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>192.168.1.10:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>192.168.1.10:19888</value>
</property>
</configuration>

e.配置yarn-site.xml文件

<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.1.10:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.1.10:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.1.10:8031</value>
</property>
<property>

f.配置slaves文件
5、编辑环境变量：配置root用户的环境变量，切换至家目录，使用vim .bash_profile编辑环境变量。添加如下内容。

HADOOP_HOME=/hadoop/soft/hadoop-2.8.3

:HADOOPHOME/sbin:HADOOP_HOME/sbin:HADOOPHOME/sbin:HADOOP_HOME/bin
6、验证：使用source .bash_profile重新加载环境变量，使用命令hadoop version查看现在hadoop的版本，结果如下。
应为Hadoop 2.7.1

7、其它节点安装：将节点hadoop1上已经配置好的hadoop拷贝到另外两个节点上，然后按上面的方法设置另外两个节点的环境变量。(使用vim .bash_profile编辑环境变量)，完成后用上面查看版本的方式验证一下。

（九）、Hadoop启动

使用hdfs namenode –format格式化hdfs文件系统，如下图。（仅在第一次启动之前需要格式化，后面启动不需要格式化，只需在节点1上执行）
使用start-all.sh启动所有服务（只需在节点1上执行）

启动成功可分别登陆至每个节点运行jps查看每各个节点上运行的进程，正常情况如下。

在物理机（主机）上访问hdfs的web界面，打开物理机浏览器，输入网址：http://192.168.1.10:50070，结果如下图能看到datanode的数据和启动datanode相同，表示启动成功。

同上，使用浏览器打开http://192.168.1.10:8088，结果如下图，表示yarn正常正常启动。
（一）（二）步骤转载自
https://mp.weixin.qq.com/s/0X1fq8xJjBQ5eKU8gQllWw
（三）（四）（五）（六）（七）（八）（九）步骤转载自https://zhuanlan.zhihu.com/p/61202563
https://zhuanlan.zhihu.com/p/61205498

三、遇到问题

（一）、物理机上无法ping通linux主机IP，出现无法访问目标主机的错误

发现问题：
1、在主机的命令提示符中输入命令行命令 ipconfig/all 发现没有VMnet1和VMnet8 。
2、在“网络和Internet”的“更改适配器选项”中没有VMnet1和VMnet8的虚拟网卡。
3、Xshell连接时：出现下列信息
Connecting to 192.168.1.90:22…
Could not connect to ‘192.168.1.90’ (port 22): Connection failed.
说明连接失败。
4、网上查找原因，发现之前重装虚拟机时没有卸载干净，于是出现了错误。
解决办法：
1、卸载已安装的虚拟机
2、将C:\ProgramData下的VMware文件夹删除掉，而ProgramData文件夹是隐藏的，因此需要如下步骤：
（1）、打开此电脑，点击查看

（2）、点击右边的选项，弹出文件夹选项，点击查看，选择显示隐藏的文件、文件夹和驱动器。
3、下载 CCleaner ：http://www.rjafx.com/archives/517
4、进行如下操作：
5、在xshell中重新连接，连接成功。
部分操作转载自https://blog.csdn.net/liouxiaozhou/article/details/78482242

（二）、Hadoop1、2、3无法互相ping

解决办法：重新启动

（三）、无法下载

数据文件太大，百度网盘系统限制，下载不了

解决方法：命令提示符把硬盘格式修改为NTFS。

（四）、无法启动start-dfs.sh

解决方法：
打开 .bashrc文件
输入命令： vim .bashrc
添加一行: PATH=$PATH:/usr/local/hadoop/sbin
(这行代码告诉bash应该去这个目录去找这个文件)。
输入命令：source $HOME/.bashrc

（五）、无法打开50070等端口

在windows中添加映射到hosts。

hosts文件位置: c:\windows\system32\drivers\etc

（六）、hadoop集群启动namenode成功，而datanode未启动

1、出现该问题的原因：在第一次格式化dfs后，启动并使用了hadoop，后来又重新执行了格式化命令（hdfs namenode -format)，这时namenode的clusterID会重新生成，而datanode的clusterID 保持不变。
2、解决方法
修改VERSION文件。
在namenode节点上打开: 进入hadoop-2.4.1/tmp/dfs/name/current/
打开VERSION：vi VERSION
复制clustreID的值
打开datanode1节点: 进入hadoop-2.4.1/tmp/dfs/data/current/
打开VERSION： vi VERSION
粘贴clustreID的值

（七）、输入java -version出现的版本不对

解决办法：删除原有版本
1、输入rpm -qa | grep java查看系统自带的jdk，会出现类似于XXXX-version-openjdk-XXXX的信息。
2、通过 rpm -e --nodeps 后面跟系统自带的jdk名这个命令来删除系统自带的jdk，例如 rpm -e --nodeps java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64。
3、再次输入java -version，成功。

Hadoop下载、安装与遇到问题相关推荐

Windows系统Hadoop下载安装
Windows系统Hadoop下载安装 Hadoop下载 Hadoop安装 Hadoop环境配置 Hadoop服务启动 Hadoop下载官网下载地址:https://mirrors.tuna.tsi ...
Hadoop下载安装及HDFS配置教程
Hadoop下载安装及HDFS配置教程前言 Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和 ...
Linux中hadoop下载安装及环境配置
目录 1.下载Hadoop 2.通过Xftp上传Hadoop至Linux 3.配置环境变量 3.1环境变量临时生效 3.2环境变量永久生效 1.下载Hadoop **操作系统:Centos7.6 64 ...
Hadoop下载安装（ubantu20.04）
1.下载Hadoop 下载地址:北京信息学院镜像http://mirror.bit.edu.cn/apache/hadoop/common/ 2. 安装Hadoop 创建Hadoop用户 sudo u ...
超详细hadoop下载安装教程（附图文）
在前几篇的文章中分别就虚拟系统安装.LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤. 在此之前有必要做一个简单的说明:分享的所有内容 ...
hadoop3.2集群下载安装
一. 搭建hadoop集群可以先进行jdk和hadoop的安装,经过克隆之后,克隆的虚拟机里面也会存在jdk和hadoop(我用的是完整克隆,链接克隆应该也可以),就不需要多次安装了. 1.安装三台 ...
给虚拟机下载安装jdk，hadoop等(非常详细的步骤）
文章目录前言一.创建文件夹并且安装小工具 1.创建文件夹 2.yum安装几个小工具二.安装jdk 1.安装jdk压缩包 2.解压 3.配置环境变量 4.保存退出,让配置起作用 5.查看Java是 ...
Mac OS X上下载安装和配置hadoop指南
Mac OS X上下载安装和配置hadoop指南 jdk下载下载hadoop 添加Hadoop环境变量修改Hadoop的配置文件启动Hadoop jdk下载 [可以在这个网盘去下载] https ...
hadoop单机安装，小白上手最详细教程-Ali0th
Author : Ali0th Date : 2019-4-6 前言最近上手大数据,入门一下hadoop,单机部署撸了几天,终于部署起来了,遇到了不少坑.这篇文章把我整个过程码下来了,包括了各个步骤 ...
Ubuntu下hadoop的安装与简单应用
1. 安装jdk和ssh 1.1 下载jdk jdk下载地址:https://www.oracle.com/java/technologies/javase-jdk14-downloads.html ...

Hadoop下载、安装与遇到问题