Linux环境下安装配置Hadoop教程

在Linux环境下,安装配置Hadoop教程。

准备工作

1.VMware虚拟机
2.Linux环境:CentOS 7
3.远程登陆:Xshell 6 & Xftp 6
4.Hadoop安装包 百度网盘【t0vz】
5.Vim命令

操作 描述
vi 文件名 打开文件
i 编辑
esc 退出编辑
:wq 保存并退出
方向键↑↓←→ 控制光标

搭建Hadoop

搭建3个节点的Hadoop的完全分布式,即1个nameNode,2个dataNode,分别如下:

名称 类型 ip地址
CentOS7 nameNode 192.168.44.128
CentOS7-node1 dataNode 192.168.44.129
CentOS7-node2 dataNode 192.168.44.130

1.首先创建好一个CentOS虚拟机,将它作为主节点我这里起名为CentOS-master,名称随意,不固定要求。
此步骤可参考https://blog.csdn.net/q961250375/article/details/101379805.
2. VMware或Xshell 6打开虚拟机,安装配置JDK。不要使用系统自带的openJDK版本。
此步骤可参考https://blog.csdn.net/q961250375/article/details/101434451
3.检查防火墙,若防火墙处于running状态,则执行第4和第5步,否则直接进入第6步。

systemctl status firewalld.service


4.关闭防火墙,命令行:

systemctl stop firewalld.service


5.禁用防火墙,命令行:

systemctl disable firewalld.service


6. 在 /usr/local/ 目录下创建一个hadoop文件夹,命令行:

mkdir /usr/local/hadoop


7. 使用Xftp 6将下载好的hadoop的tar包放到 /usr/local/hadoop 目录下。

8.进入hadoop目录,解压hadoop的tar包,命令行:

// 进入hadoop目录
cd /usr/local/hadoop/
// 解压tar包
tar -zxvf hadoop-2.7.3.tar.gz


9.配置hadoop环境变量,命令行:

vim /etc/profile

输入以下内容,保存并退出。

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin


10.将刚才设置的环境变量生效,命令行:

source /etc/profile


11.任意目录输入 hado ,然后按Tab,如果自动补全为hadoop,则说明环境变量配的没问题,否则检查环境变量哪出错了。

12.在 /usr/local/hadoop/ 目录下创建3个文件夹,命令行:

mkdir /usr/local/hadoop/tmp
mkdir -p /usr/local/hadoop/hdfs/name
mkdir /usr/local/hadoop/hdfs/data


13.进入 /usr/local/hadoop/hadoop-2.7.3/etc/hadoop 目录,里面存放的是hadoop的配置文件,接下来要修改这里面一些配置文件,命令行:

cd /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/


14.其中hadoop-env.sh和yarn-env.sh两个文件需要指定JAVA目录。

vim hadoop-env.sh

将原有的JAVA_HOME注释掉,根据自己的JDK安装位置,精确配置JAVA_HOME如下,保存并退出。

vim yarn-env.sh

加入如下内容,指定JAVA_HOME,保存并退出。

export JAVA_HOME=/usr/local/java/jdk1.8.0_65


15.修改core-site.xml配置文件,命令行:

vim core-site.xml

在configuration标签中,添加如下内容,保存并退出,注意这里配置的hdfs:master:9000是不能在浏览器访问的。

 <property><name> fs.default.name </name><value>hdfs://master:9000</value><description>指定HDFS的默认名称</description></property><property><name>fs.defaultFS</name><value>hdfs://master:9000</value><description>HDFS的URI</description></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value><description>节点上本地的hadoop临时文件夹</description></property>


16.修改hdfs-site.xml配置文件,命令行:

vim hdfs-site.xml

在configuration标签中,添加如下内容,保存并退出。

<property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/hdfs/name</value><description>namenode上存储hdfs名字空间元数据 </description>
</property>
<property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/hdfs/data</value><description>datanode上数据块的物理存储位置</description>
</property>
<property><name>dfs.replication</name><value>1</value><description>副本个数,默认是3,应小于datanode机器数量</description>
</property>


17.将mapred-site.xml.template文件复制到当前目录,并重命名为mapred-site.xml,命令行:

cp mapred-site.xml.template mapred-site.xml


18.修改 mapred-site.xml 配置文件,命令行:

vim mapred-site.xml

在configuration标签中,添加如下内容,保存并退出。

<property><name>mapreduce.framework.name</name><value>yarn</value><description>指定mapreduce使用yarn框架</description>
</property>


19.修改 yarn-site.xml 配置文件,命令行:

vim yarn-site.xml

在configuration标签中,添加如下内容,保存并退出。

<property><name>yarn.resourcemanager.hostname</name><value>master</value><description>指定resourcemanager所在的hostname</description>
</property>
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序</description>
</property>


20.修改 slaves 配置文件,命令行:

vim slaves

将localhost删掉,加入如下内容,即dataNode节点的主机名。

node1
node2


21.将虚拟机关闭,再克隆两份虚拟机,重命名为如下,注意这里一定要关闭虚拟机,再复制。

下面是克隆虚拟机教程。



22. 将3台虚拟机都打开,后两台复制的虚拟机打开时,都选择【我已复制该虚拟机】。

23.修改hostname。
在master机器上,将localhost改为master,保存并退出。
注意,修改hostname后重启虚拟机。

vim /etc/hostname


在node1机器上,将localhost改为node1,保存并退出。

在node2机器上,将localhost改为node2,保存并退出。

24.3台虚拟机分别修改hosts文件,其作用是将一些常用的网址域名与其对应的IP地址建立一个关联,当用户在访问网址时,系统会首先自动从Hosts文件中寻找对应的IP地址。

vim /etc/hosts

host文件添加以下内容,3台虚拟机都要配置!

192.168.44.128 master
192.168.44.129 node1
192.168.44.130 node2


25.在master机器上创建一个无密码公钥,-t是类型的意思,dsa是生成的密钥类型,-P是密码,’’表示无密码,-f后是秘钥生成后保存的位置。

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa


26.在master机器上将公钥id_dsa.pub添加进keys,这样就可以实现无密登陆ssh。

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys


27.在master机器上测试免密码登陆。

ssh master

如果有询问,则输入 yes ,回车

28.在node1和node2主机上都执行以下命令行:

mkdir ~/.ssh


29.在master机器上将主节点的公钥信息导入node1和node2节点,导入时要输入一下node1和node2机器的登陆密码。

scp ~/.ssh/authorized_keys root@node1:~/.ssh/authorized_keys
scp ~/.ssh/authorized_keys root@node2:~/.ssh/authorized_keys



30.在3台虚拟机上分别赋予密钥文件权限。

chmod 600 ~/.ssh/authorized_keys




31.在master节点上分别测试node1和node2是否配置ssh成功。

ssh node1
ssh node2


32.如果node节点还没有hadoop,则master机器上分别输入如下命令将hadoop复制。

scp -r /usr/local/hadoop/ root@node1:/usr/local/
scp -r /usr/local/hadoop/ root@node2:/usr/local/

若node节点有hadoop,则此步骤跳过。

33.在master机器上,格式化namenode,第一次使用需格式化一次,之后就不用再格式化,如果改一些配置文件了,可能还需要再次格式化。

hdfs namenode -format


出现以下信息表示格式化完成。

34.在master机器上,进入hadoop的sbin目录,启动hadoop,命令行:

cd /usr/local/hadoop/hadoop-2.7.3/sbin
./start-all.sh

遇到确认操作,输入yes,回车。

35.输入 jps 查看当前java的进程,该命令是JDK1.5开始有的,作用是列出当前java进程的PID和Java主类名,nameNode节点除了JPS,还有3个进程,启动成功。

36.在node1机器和node2机器上分别输入 jps 查看进程如下,说明配置成功。


37.在浏览器访问nameNode节点的8088端口和50070端口可以查看hadoop的运行状况。

http://192.168.44.128:8088
http://192.168.44.128:50070



38.在master机器上,进入hadoop的sbin目录,输入 ./stop-all.sh 即可关闭hadoop。

./stop-all.sh

测试Hadoop文件上传

1.在根目录下创建一个hello.txt测试文本,命令行:

vim hello.txt

2.使用hadoop命令:

hadoop fs -put hello.txt /

3.访问【http://192.168.44.128:50070】,选择【Utilities】下的【Browse the file system】。

至此,Hadoop的所有安装配置过程完成。

Linux环境下安装配置Hadoop教程相关推荐

  1. 关于Linux环境下安装配置vsftpd服务全攻略(踩坑)

    2017年08月09日 19:42:19 木大白易 阅读数 17536更多 分类专栏: Linux OS 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接 ...

  2. 在redhat/centos的linux环境下安装配置java web运行环境

    2019独角兽企业重金招聘Python工程师标准>>> 环境安装配置: 1.jdk的安装配置     ①下载jdk,地址 http://www.oracle.com/technetw ...

  3. linux trac apache,Linux环境下安装trac图文教程

    1. 安装trac及其环境 Linux环境 1.1安装python 查看python版本 注:trac需要python版本>=2.6 升级安装python前需要安装EPEL yum升级pytho ...

  4. linux系统下安装配置iSCSI教程

    测试系统为Redhat 5.4,内核版本为2.6.18,iSCSI Server已经配置好,此处不再说明. 1.  安装iSCSI Initiator a) 使用命令mount /dev/cdrom  ...

  5. linux环境下快速配置hadoop集群免密登录

    背景 在hadoop的日常使用过程中经常需要登录某些机器,如何更好的免密登录呢?这将为我们节省大量的时间 操作 假设你需要在A机器上免密登录B机器,那么你首先要确定B机器下是有秘钥文件的.如何确定是否 ...

  6. Linux 环境下安装 GitLab 与配置

    什么是 GitLab? GitLab 是一个用于仓库管理系统的开源项目,使用 Git 作为代码管理工具,并在此基础上搭建起来的 web 服务. GitLab的功能特点 提供了管理,计划,创建,验证,打 ...

  7. Linux环境下安装 JDK1.8 以及配置环境变量

    Linux环境下使用指令下载JDK wget https://download.oracle.com/otn/java/jdk/8u291-b10/d7fc238d0cbf4b0dac67be8458 ...

  8. Linux服务器下安装配置Nginx的教程

    这篇文章主要介绍了Linux服务器下安装配置Nginx服务器的教程,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下 Nginx("engine x")是一款 ...

  9. Linux环境下安装tomcat并配置开机自启

    Linux环境下安装tomcat并配置开机自启 1. 将tomcat压缩包复制到Linux中,(这里复制到usr/local/tomcat目录下). 2. 使用tar zxvf apache-tomc ...

最新文章

  1. linux高可用集群(HA)原理详解
  2. dedecms织梦获得首字母或拼音的方法,并实现文章列表按首字母归类
  3. Spring Boot druid监控页添加登录访问权限(用户名+密码)
  4. Codeforces Round #307 (Div. 2) D. GukiZ and Binary Operations (矩阵高速幂)
  5. pdo sqlite_ sqlite2 pdo_mysql_php使用pdo连接sqlite3的配置示例
  6. 【渝粤题库】广东开放大学 标准的研制与编制 形成性考核
  7. 互联网晚报 | 3月26日 星期六 |​ 竞拍规则优化,部分城市土地市场有所回暖;​​武汉房贷利率下调...
  8. Windows10桌面美化推荐之Dock栏
  9. html 圆圈项目符号,html – 列表项下的项目符号
  10. 基于XAMPP的Testlink安装方法
  11. ocv特性_SOC-OCV曲线是否始终值得信赖的吗?
  12. 比特鹏哥c语言视频,跟着鹏哥学习C语言
  13. 关于hibernate的mappedBy的使用:
  14. AD13转oRCAD原理图的操作方式
  15. Hadoop基础【HDFS的shell,客户端操作、上传下载流程】
  16. HTML5期末大作业:网站设计——天天生鲜水果蔬菜商城网站静态模板 (10个页面) HTML+CSS+JavaScript...
  17. 【板栗糖GIS】Win11如何取消打印机任务
  18. Flutter Tabbar 自定义选中下标 自定义Indicator
  19. 微信动态二维码管理引流源码/微信活码/自动换群/微信朋友圈加群二维码
  20. 古诗词-飞火在线工具

热门文章

  1. LightOJ 1220 Mysterious Bacteria(唯一分解定理) (素数筛)
  2. 机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?
  3. 小朋友几岁学机器人编程
  4. Authorware使用案例:DirectMediaXtra制作内部媒体播放器
  5. TTS授权失败 iOS百度导航
  6. AutoGluon 低调开源!性能超过人类调参师6个点
  7. unity3d实现跑酷游戏
  8. java项目数据库一直连接_Java数据库连接
  9. amd什么服务器芯片,AMD大杀器!AMD Naples服务器芯片如何占领市场
  10. Fullcalendar V5踩坑 (日视图篇)