Hadoop入门(一)
1. Hahoop概述
1.1 Hodoop是什么
Hadoop是一个有Apache基金会所开发的分布式系统基础架构
主要解决海量数据的存储和海量数据的分析计算问题
广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
1.2 Hadoop优势
高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
高扩展性:在集群间分配任务数据,可方便地扩展数以千计的节点。
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
高容错性:能够自动将失败的任务重新分配。
1.3 Hadoop组成
Hadoop1.x组成:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)
Hadoop2.x组成:Common(辅助工具)、HDFS(数据存储)、Yarn(资源调度)、MapReduce(计算)
在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。
Hadoop3.x时代在组成上没有变化。
1.3.1 HDFS 架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。
NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
DataNode(dn):本地文件系统存储文件块数据,以及快数据的校验和。
3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
1.3.2 YARN 架构概述
一种资源协调者,是Hadoop的资源管理器。
ResourceManager(RM):整个集群资源(内存、CPU等)的老大
NodeManage(NM):单个节点服务器的老大
ApplicationMaster(AM):单个任务运行的老大
Container :容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。
1.3.3 MapReduce架构概述
MapReduce将计算过程分为俩个阶段:Map和Reduce
Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总
2. Hadoop运行环境搭建
2.1 虚拟机环境准备
2.1.1 安装 Cent OS 7
现在呢,只是相当于把 “硬件(类型与组装了一台电脑,只不过这台电脑是虚拟的)” 安装完成。接下来,安装 "软件"
进去之后直接敲回车,然后等待安装
2.1.2 配置IP
点击左上角的编辑 ——> 虚拟网络编辑器
然后在 Windows 系统上找到 VMware Network Adapter VMnet8 编辑 IPv4 修改如下:(我的是win11系统,win7,win10的右击右下方的网络图标就可以)
2.1.3 配置主机名称映射
2.2 Xshell 远程访问
Xshell的安装教程我就不写了。
Xshell 远程连接服务器
修改主机映射 进入 C:\Windows\System32\drivers\etc 路径
这么做的目的是为了方面我们后面在Xshell 中的远程连接,以后再创建远程连接时,就不需要输出ip了,直接输入主机名就好,效果如下:
2.3 Xftp 远程传输工具
Xftp 的安装过程我也就不写,无脑下一步就好,记着更改安装目录就好。
2.4 安装 epel-release
注:Extra Package for Enterprise Linux 是为"红帽系"的操作系统提供额外的软件包,适用于 RHEL、CentOS和Scientific Linux。相当于一个软件仓库,大多数 rpm 包再官方 repository 中是找不到的 (说白了就是一个类似于补丁的一个东西)
输入命令:yum install -y epel-release
出现以下操作,则成功。若出现错误: 某某PID被锁定,则通过命令 kill -9 进程号 杀死进程,然后再从新执行以上命令。
2.5 关闭防火强,关闭防火墙开机自启
输入命令:
systemctl stop firewalld
systemctl disable firewalld.service
2.6 配置tom用户具有root权限,方便后期加sudo执行root权限的命令
vim /etc/sudoers
修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示:
2.7 卸载自带的 JDK
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps参数解读:
rpm -qa:查询所安装的所以rpm软件包
grep -i:忽略大小写
xargs -n1:表示每次只传递一个参数
rpm -e --nodeps:强制卸载软件
2.8 克隆虚拟机
克隆虚拟器前,一定要关闭!!右击虚拟机 ——>电源——>关闭客户机
右击虚拟机 ——>管理——>克隆
重复以上操作,在克隆一个 Hadoop03和Hadoop04
打开Hadoop02按以下操作修改
然后执行 reboot 重启虚拟机
按照以上操作将Hadoop03和Hadoop04 的ip和主机名 修改为对应 03和04
注意:以上所有虚拟机 reboot后 建议查询IP和主机名是否修改成功,并且要保证每一台都能ping通 www.baidu.com
确保无误后,将每一台虚拟机通过Xshell进行连接
确保每一个都能连接成功
2.9 安装JDK
在Hadoop01中安装JDK,剩下的02、03、04 我们会通过拷贝的方式进行安装JDK
拖拽完成后,关掉就可以了
2.10 安装Hadoop
依然是在Hadoop01中进行安装
Hadoop入门(一)相关推荐
- Hadoop新手篇:hadoop入门基础教程
Hadoop新手篇:hadoop入门基础教程 关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧.最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环 ...
- Hadoop入门基础教程 Hadoop之单词计数
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的src/exampl ...
- Hadoop入门基础教程 Hadoop之完全分布式环境搭建
上一篇我们完成了Hadoop伪分布式环境的搭建,伪分布式模式也叫单节点集群模式, NameNode.SecondaryNameNode.DataNode.JobTracker.TaskTracker所 ...
- 一.hadoop入门须知
目录: 1.hadoop入门须知 2.hadoop环境搭建 3.hadoop mapreduce之WordCount例子 4.idea本地调试hadoop程序 5.hadoop 从mysql中读取数据 ...
- 大数据与Hadoop有什么关系?大数据Hadoop入门简介
学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...
- Hadoop 入门学习思维导图
Hadoop 入门学习思维导图:
- Hadoop新手篇:hadoop入门基础教程 1
Hadoop新手篇:hadoop入门基础教程 关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧.最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环 ...
- 大数据框架Hadoop篇之Hadoop入门
1. 写在前面 今天开始,想开启大数据框架学习的一个新系列,之前在学校的时候就会大数据相关技术很是好奇,但苦于没有实践场景,对这些东西并没有什么体会,到公司之后,我越发觉得大数据的相关知识很重要,不管 ...
- [学习笔记]黑马程序员-Hadoop入门视频教程
文章目录 参考资料 第一章:大数据导论与Linux基础(p1-p17) 1.1 大数据导论 1.1.1 企业数据分析方向 1.1.2 数据分析基本流程步骤 明确分析的目的和思路 数据收集 数据处理 数 ...
- hadoop入门教程免费下载
Hadoop入门教程免费下载,学习大数据的小伙伴应该都知道Hadoop是必须要接触的,学习大数据,从Hadoop入门教程开始. Hadoop是什么? 首先我们了解到Hadoop是Apache软件基金会 ...
最新文章
- 干货 | 基于贝叶斯推断的分类模型 机器学习你会遇到的“坑”
- spring 数组中随机取几个_游戏编程中需要掌握哪些数学物理知识
- 计算机专业申请计算生物学,卡内基梅隆大学计算生物学硕士专业
- 【进阶1-3期】JavaScript深入之内存空间详细图解
- boost::hana::count_if用法的测试程序
- Android之用netcfg命令获取手机虚拟网卡tun0的信息
- 利用JavaScript实现简单的下拉菜单
- RK3399Pro Android Rock-X 人工智能开发系列(1)
- 大智慧 软件 开发语言_智慧工厂培训软件开发流程篇
- 月薪14.5K...转行测试还是考公考研?律师小哥是这样选择的...
- centos压缩和解压缩命令之zip
- 1.0-并发编程-进程和线程简介
- emerald sword(打倒大魔王)
- 算法学习——K近邻算法
- 哈尔滨工业大学-计算机系统大作业-程序人生
- 第一届安洵杯writeup
- JAVA衣依服装销售平台计算机毕业设计Mybatis+系统+数据库+调试部署
- 如何去理解同花顺l2接口?
- Java和C++基本类型与语法的区别
- (免费分享)基于javaweb,ssm旅游信息系统