文章目录

  • 前言
  • 一、Hadoop是什么?
  • 二、使用步骤
    • 1.所需环境及软件
    • 2.测试集群服务器规划
    • 3.前置软件安装或者准备工作
    • 4.安装Hadoop
  • 总结

前言

`最近大数据又兴起了,我们公司也入了大数据的项目,大数据这玩意范围广,涉及到的知识也不局限一个方面,国内的大数据平台,基本上都是基于Hadoop的这框架而衍生来的,所以Hadoop是基础


提示:以下是本篇文章正文内容,下面案例可供参考

一、Hadoop是什么?

Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。
HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。  
MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。
Hadoop集群中各个角色的名称如下:

还有个SecondaryNameNode,其实是NameNode的备用节点,定时合并和处理日志并且反馈到NameNode上。一般NameNode和SecondaryNameNode尽量不要放在同一个节点。

具体也不详细多说,网上多的是

二、使用步骤

1.所需环境及软件

操作系统:Windows 10
虚拟机:VMware 15.5
集群系统:Centos 7 64位
Hadoop版本:hadoop-3.3.1

2.测试集群服务器规划

代码如下(示例):

master  192.168.74.88 CentOS7 NameNode,DataNode,NodeManager
slave1  192.168.74.89 CentOS7 DataNode,NodeManager
slave2  192.168.74.90 CentOS7 SecondaryNameNode,DataNode,   ResourceManager,NodeManager

3.前置软件安装或者准备工作

代码如下(示例):

1.关闭防火墙(为了避免出现部分端口无法访问,内网环境下每台虚拟机都可以直接关闭防火墙)
2.JDK安装
3.修改主机名
# 节点192.168.74.88
hostnamectl set-hostname hadoop01
reboot
# 节点192.168.74.89
hostnamectl set-hostname hadoop02
reboot
# 节点192.168.74.90
hostnamectl set-hostname hadoop03
reboot
4.修改hosts文件
192.168.74.88   hadoop01
192.168.74.89   hadoop02
192.168.74.90   hadoop03
5.设置集群机器SSH免登
5.1使用ssh-keygen -t rsa命令
5.2把master机器的公钥文件放入授权文件中 cat id_rsa.pub >> authorized_keys
5.3收集集群中所有节点的/home/hadoop/.ssh/id_rsa.pub内容,汇总合并成一个authorized_keys文件,再拷贝该文件到所有集群节点的/home/hadoop/.ssh/目录下

4.安装Hadoop

主要在hadoop01节点中安装即可,安装完毕可以通过scp命令直接拷贝文件分发到不同的节点中

代码如下(示例):

1.解压安装
2.环境变量配置
vim ~/.bashrc
gedit ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.322.b06-1.el7_9.x86_64/jre
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/data/hadoop/app
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHsource ~/.bashrc
3.Hadoop配置
配置core-site.xml
gedit /data/hadoop/app/etc/hadoop/core-site.xml
<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop01:9000</value></property><property><name>hadoop.tmp.dir</name><value>/data/hadoop/temp</value></property>
</configuration>
配置hdfs-site.xml
gedit /data/hadoop/app/etc/hadoop/hdfs-site.xml
<configuration><property><name>dfs.namenode.name.dir</name><value>/data/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>/data/hadoop/dfs/data</value></property><property><name>dfs.replication</name><value>3</value></property><property><name>dfs.secondary.http.address</name><value>hadoop03:50090</value></property><property><name>dfs.http.address</name><value>192.168.74.88:50070</value></property>
</configuration>
配置mapred-site.xml
gedit /data/hadoop/app/etc/hadoop/mapred-site.xml
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property>
</configuration>
配置yarn-site.xml
gedit /data/hadoop/app/etc/hadoop/yarn-site.xml
<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop02</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>
配置workers文件
gedit /data/hadoop/app/etc/hadoop/workers
hadoop01
hadoop02
hadoop03
4.分发Hadoop安装包到其他节点
## 分发节点2
scp -r /data/hadoop/app hadoop@hadoop02:/data/hadoop## 分发节点3
scp -r /data/hadoop/app hadoop@hadoop03:/data/hadoop
5.格式化NameNode
规划中是hadoop01作为NameNode,在该机器下进行格式化:hadoop namenode -format格式化NameNode成功的控制台日志如下:
2022-03-19 10:08:39,844 INFO common.Storage: Storage directory /data/hadoop/dfs/name has been successfully formatted.
6.启动和停止HDFS
可以在任意一个节点中启动和停止HDFS,为了简单起见还是在hadoop01节点中操作:
启动:start-dfs.sh
停止:stop-dfs.sh

7.启动和停止YARN
YARN集群的启动命令必须在ResourceManager节点中调用,规划中的对应角色的节点为hadoop03,在该机器执行YARN相关命令:
启动:start-yarn.sh
停止:stop-yarn.sh

8.查看所有节点的进程状态
[hadoop@hadoop01 hadoop]$ jps
8673 NameNode
8823 DataNode
9383 NodeManager
9498 Jps[hadoop@hadoop02 hadoop]$ jps
4305 DataNode
4849 Jps
4734 NodeManager[hadoop@hadoop03 data]$ jps
9888 Jps
9554 NodeManager
5011 DataNode
9427 ResourceManager
5125 SecondaryNameNode9.通过WEB管理界面查看集群状态
HDFS入口:http://192.168.74.88:50070(来自于hdfs-site.xml的dfs.http.address配置项)YARN入口:http://192.168.74.90:8088/cluster(ResourceManager所在节点的8088端口)


总结

记录每天的点点滴滴,中途出现好些问题,反反复复装了好几遍,通过找问题加深理解

Hadoop环境搭建学习(1)相关推荐

  1. GitChat·大数据 | 史上最详细的Hadoop环境搭建

    GitChat 作者:鸣宇淳 原文: 史上最详细的Hadoop环境搭建 关注公众号:GitChat 技术杂谈,一本正经的讲技术 [不要错过文末彩蛋] 前言 Hadoop在大数据技术体系中的地位至关重要 ...

  2. 【菜鸟窝】Hadoop生态系统、Hadoop虚拟机环境准备、Hadoop环境搭建(含安装包和教程)

    hadoop环境搭建视频:https://www.cniao5.com/course/lessons/10244 1.1Hadoop简介 1.1.1Hadoop的诞生 Hadoop是由Apache L ...

  3. Hadoop环境搭建之zookeeper安装

    Hadoop环境搭建 一.预备知识 1.大数据导论 1.1 大数据概念 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决 ...

  4. Hadoop环境搭建及常见问题解决(保姆级教程)

    Hadoop环境搭建及常见问题解决 零.资源准备 一.环境准备 1. 安装虚拟机 2. 环境准备 1) 创建新用户xiaobai 2) 安装ssh-server 3) 上传相关资源 [4)] 使用pu ...

  5. Hadoop环境搭建教学(二)完全分布式集群搭建;

    Hadoop环境搭建教学(一)运行环境,集群规划介绍: 文章目录 安装三台 CentOS 7系统 一.X-Shell的准备工作 二.基本工具安装 三.关闭防火墙 四.修改Host文件 五.3.4.4 ...

  6. Hadoop环境搭建教学(一)运行环境,集群规划介绍;

    文章目录 前言 一.Hadoop的三种运行环境 二.集群规划 三.需要的基本软件安装 下期见 前言 Hadoop的运行环境可以是在Windows上,也可以在linux上,但在Windows上运行效率很 ...

  7. Hadoop环境搭建(二)CentOS7的下载与安装

    Hadoop环境搭建(一) VMware Workstation安装 与 网络配置 1. CentOS7的下载 https://wiki.centos.org/Download 2. CentOS7安 ...

  8. 【卷积神经网络环境搭建学习笔记】

    卷积神经网络环境搭建学习笔记 前言 首先,特别感谢B站UP主:肆十二- csdn链接:https://blog.csdn.net/ECHOSON/article/details/117964438 再 ...

  9. hadoop环境搭建(详解)

    hadoop 环境搭建 引言: 随着人工智能和大数据的热潮的到来,大数据变得越来越火了,坏蛋哥的信念就是致力于大数据的发展和进步,希望能为大数据的发展和推广尽一份绵薄之力.如果要做大数据,那么大数据相 ...

  10. Spark Hadoop 环境搭建http://www.jianshu.com/p/5b1eafdf34a9

    Spark Hadoop 环境搭建 链接地址:http://www.jianshu.com/p/5b1eafdf34a9 来源:简书 博文内容与结构: 1.介绍了搭建大数据框架的文件和步骤; 2.包括 ...

最新文章

  1. 【控制】《多智能体系统一致性与复杂网络同步控制》郭凌老师-第9章-结论与展望
  2. android导出excel文件名称,android 导出数据到excel表格文件
  3. wxWidgets:wxColourDatabase类用法
  4. 使用 C++0x 时 make_shared 完美转发构造函数参数的测试编译器
  5. 【机器学习】降维技术-PCA
  6. jzoj4274-终章-剑之魂【位运算,贪心】
  7. mysql给数据量大的表添加索引的办法
  8. cv mat的shape_将ndarray转换为cv::Mat的最简单方法是什么?
  9. 几台pc打造超级计算机,324台Mac Pro打造超级计算机
  10. jquery easy ui 1.3.4 窗口,对话框,提示框(5)
  11. 使用Movavi Video Editor如何做局部放大的影片特效
  12. 基于python的毕业论文邮箱收发系统_基于Python实现邮件发送
  13. 主键中mappedBy的具体使用及其含义
  14. 超好用的卸载工具——geek(免安装)
  15. 计算机学校的逻辑思维题,2013逻辑推理专项习题100道(附答案).docx
  16. 电商商品退款流程设计案列
  17. bind peeking--绑定变量窥视
  18. 六级单词词组积累(三)
  19. 开源学校管理系统php,SchoolCMS学校管理系统 v2.3
  20. 如何快速读懂开源代码?

热门文章

  1. html编码写出滚动字幕,HTML滚动字幕代码及参数详解_html/css_WEB-ITnose
  2. 魔兽世界 助手 无法连接服务器,魔兽世界助手8.1无法登陆
  3. 如何通过Google学术快速获取参考文献引用格式-2021年
  4. Blur Multiple Images(图片模糊化处理软件)官方正式版V1.8 | 怎样将图片模糊化处理?
  5. 【软件相关】Multisim完整教程
  6. 产品规划立项流程(CDP)
  7. 浏览器看直播html5卡顿,win10自带浏览器看直播卡顿怎么解决_win10浏览器看直播一卡一卡修复方法-win7之家...
  8. Himall商城文件帮助类IOHelper(2)
  9. 判定两个点是否在一条直线的同一侧_高中物理的常用方法、题型特点及应用注意点,不看很吃亏...
  10. 文言文代码算什么?跟着九章算术学Python编程才厉害