Hadoop版本区别Hadoop组成
1. Hadoop版本差异
Hadoop 1.x | hadoop 2.x |
---|---|
MapReduce(计算+资源调度) | MapReduce(计算) |
—— | Yarn(资源调度) |
HDFS(数据存储) | HDFS(数据存储) |
Common(辅助工具) | Common(辅助工具) |
在Hadoop1.x 时代,Hadoop中的Mapreduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.x时代,增加了yarn。yarn只负责资源调度,mapreduce只负责运算。
2.HDFS架构概述
- NameNode(nn): 存储文件的元数据,如文件名称,文件目录结构,文属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和
3.Secondary NameNode(2nn):用来监控HDFS状态的辅助后台进程,每隔一段时间,获取HDFS元数据的快照
NameNode的辅助
3.Yarn架构概述
Resource Manager 和Node Manager都是节点,如图的集群有四个节点
ResourceManager(RM) 主要作用: 整个集群资源的老大
- 处理客户端请求
- 监控NodeManeger
- 启动和监控ApplicationMaster(集群上运行着很多job,单独每一个job由App Master管)
Node Manager(NM)主要作用: 单个节点的老大
- 管理单个节点上的资源
- 处理来自ResourceManager的命令
- 处理来自App Master 的命令(资源请求)
Application Master (AM)主要作用:
- 负责数据的切分
- 为应用程序申请资源并分配给内部的
- 任务的监控与容错
Container
Yarn中的资源抽象,他封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。
与vmware帮我们虚拟出很多虚拟机是一个道理。都是虚拟技术。
4.MapReduce 架构概述
MapReduce 将计算过程分为两个阶段: Map 和 Rduce
- Map阶段并行处理输入数据
- Reduce 阶段对Map结果进行汇总
Hadoop版本区别Hadoop组成相关推荐
- Apache 、CDH、TDH、HDP、MapR等Hadoop版本区别
一.简述 目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版.Intel发行版.Cloudera发行版(CDH).Hortonworks发行版(HDP).MapR等,所有这些发行版 ...
- Hadoop——(Hadoop框架,Hadoop的优缺点,Hadoop1.x和2.x的版本区别,Hadoop架构,Hadoop目录结构)
文章目录 大数据的简介 Hadoop框架 Hadoop的优缺点 Hadoop1.x和2.x的版本区别 Hadoop架构 Hadoop目录结构 正常工作的Hadoop集群中Hadoop都分别需要启动哪些 ...
- 【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型
忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本 和 生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : ...
- Apache Hadoop版本详解
由doop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了ApacheHadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议 ...
- Hadoop版本选择探讨
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的 ...
- 自学大数据:用以生产环境的Hadoop版本比较
一.背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素.这篇文章根据就谈谈现在主流的hadoop版本的比较.如果有不同意见,或者指正,希望大家能交流. Apache ...
- 【大数据技术】操作系统和Hadoop版本选择
1.操作系统选择 Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS. CentOS是一个基于Red Hat 企业级 Linux 提 ...
- CDH和Hadoop的区别
1.hadoop有几个版本? 2.CDH有几种安装方式? 3.CDH在安装认证方面做了什么改变? --------------------------------------------------- ...
- hadoop组件---spark----全面了解spark以及与hadoop的区别
Spark是什么 Spark (全称 Apache Spark™) 是一个专门处理大数据量分析任务的通用数据分析引擎. spark官网 Spark核心代码是用scala语言开发的,不过支持使用多种语言 ...
- Cloudera的CDH和Apache的Hadoop的区别
Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进).Clo ...
最新文章
- channelinboundhandler中都包含了哪一类的方法_数据仓库、数据集市、数据湖、数据中台到底有什么区别?都得做吗?...
- Ubuntu 16.04 amd64 bond mode6 配置
- 中心化(又叫零均值化)和标准化(又叫归一化)
- RxSwift之路 1#Swift语法知识准备
- 有一个懂机械、懂焊接、懂电子的爹是什么概念。。。
- Protobuf3教程
- 安装libsvm工具包
- 诗与远方:无题(七十七)- 远方
- MySQL 5.7 多实例单配置 多实例多配置文件安装 | 资料
- mysql单列索引和多列索引_MySQL索引使用说明(单列索引和多列索引)
- bash shell for循环1到100
- redis的简单操作
- 汽车营销与保险【1】
- 域名不要www如何解析
- 36个excel技巧、50个快捷键
- mysql自增不连续的问题 ALTER TABLE `表名` AUTO_INCREMENT =1;
- 攻防世界-mfw-(详细操作)做题笔记
- linux下关于浏览器的软件包,火狐浏览器Linux系统版
- 迅雷7 down.php,迅雷云点播放器(KCPlayer5000)
- 康拓普:大屏、VR、网页…..数据可视化有哪些应用场景?