Hadoop的体系结构
Hadoop的体系结构:都是主从结构
一、HDFS的体系结构
1、NameNode:主节点
http://192.168.160.111:50070
(1)职责:管理维护HDFS
接收客户端的请求:上传、下载、创建目录等等
维护了两个非常重要的文件:edits文件 ---->记录操作日志
fsimage文件----->HDFS的元信息
(2)HDFS操作日志:edits文件
(*)位置:find . -name edits*
最新的操作日志:edits_inprogress****
(*)都是二进制
(*)HDFS提供一个工具:edits viewer 日志查看器 ----->XML
(*)Demo:
hdfs dfs -mkdir /mydemo
hdfs oev -i edits_inprogress_000000000000000106 -o ~/a.xml
(3)HDFS的元信息:fsimage文件
(*)就跟edits文件在一起
(*)记录:数据块的位置、冗余信息
(*)也是一个二进制
(*)HDFS提供一个 image viewer ----->文本或者xml
hdfs oiv -i fsimage_00000000000000005 -o ~/b.xml -p XML
(4)问题:edits文件和fsimage文件,哪个文件体现了HDFS最新的状态?
答案:edits文件,edits记录最新的状态在edits_inprogress文件中
2、DataNode:保存数据块
(1)1.x版本默认数据块大小为:64M 2.x版本默认数据块大小为:128M
(2)位置:find . -name blk*
(3)Demo:上传一个大于128M的文件
hdfs dfs -put hadoop-2.7.3.tar.gz /tools
查看数据块的文件
(4)一般原则:数据块的冗余度一般跟数据节点个数一致,最大不要超过3,在生产环境下,至少两个数据节点
3、SecondaryNameNode:第二名称节点
(*)作用:把edits中最新的状态信息合并到fsimage文件中
(*)合并过程
(*)Web Console:http://192.157.111:50090
(*)检查点:checkpoint
补充一个知识:oracle数据库中也有检查点,如果发生检查点,会以最高优先级唤醒数据库写进程(DBWN)把内存中的脏数据写到数据文件上(持久化)
二、Yarn的体系结构
日志:
18/04/07 20:24:34 INFO client.RMProxy: Connecting to ResourceManager at bigdata111/192.168.157.111:8032
1、主从结构:ResourceManager、NodeManager
2、调度MapReduce任务过程
3、资源分配的方式(3种)
(1)FIFO Scheduler:先来先得,缺点:没有考虑任务的优先级
(2)Capacity Scheduler:容器管理
(3)Fair Scheduler:公平调度(注意:安装配置Hive on Spark,需要配置Yarn为Fair Scheduler)
前提:假设每个任务具有相同的优先级,平均分配系统的资源
三、HBase的体系结构
(*)主从结构
(*)基于HDFS之上的一个NoSQL数据库
(*)列式数据库
(*)基于Key - Value----->Redis
1、主节点:HMaster
从节点:RegionServer
2、画图解释:
四、只要是主从结构的都会存在单点故障,解决方案:
Hadoop的体系结构相关推荐
- 2018-07-21期 Hadoop Yarm体系结构剖析
一.简介 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度. 其核心出发点是为了分离资源管理与作业调度/监控,实 ...
- Hadoop对Spark:正面比拼报告(架构、性能、成本、安全性和机器学习)
来自:网络大数据 每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Hadoop和Spark是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据 ...
- Hadoop 2.X 从入门到精通系列视频课程套餐
购买大数据Hadoop课程套餐,享八五折优惠!! 套餐地址:http://edu.51cto.com/pack/view/id-806.html 赵强老师博客地址:http://collen7788. ...
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...
- 一步步教你Hadoop多节点集群安装配置
一步步教你Hadoop多节点集群安装配置 1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统HDFS(Hado ...
- BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略
BigData之Hadoop:Hadoop的简介.深入理解.下载.案例应用之详细攻略 目录 Hadoop的简介 1.HDFS体系结构图 Hadoop的深入理解 0.深入了解Hadoop的其它相关基础知 ...
- hadoop集群环境搭建
参考文章: https://www.linuxidc.com/Linux/2016-02/128149.htm https://blog.csdn.net/circyo/article/details ...
- Hadoop集群完全分布式模式环境部署
Hadoop集群完全分布式模式环境部署 2013-09-13 17:24:14 分类: HADOOP Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop ...
- 大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图
大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图 http://edu.51cto.com/roadmap/view/id-29.html http://my.oschina.net/i ...
最新文章
- 计算机科学精彩帖子收集
- 深度学习面试题09:一维卷积(Full卷积、Same卷积、Valid卷积、带深度的一维卷积)...
- 达梦数据库、oracle数据库如何判断指定表有没有建立索引?对应的表有没有索引查询方法
- Valhalla项目:LW2内联类型的初步了解
- RSA不下载批次的问题
- 什么网了解c语言,什么是c语言?
- C++ multimap 用法总结 例子
- oracle插入百万测试,Oracle中插入大量测试数据
- 缓存框架 EhCache 使用 2
- python和r语言生物信息学_R语言和Python哪个适合生物信息学?
- 偶尔出现 指定 网络名不再可用 错误提示 MS-SQL Server 基础类(尤其是在文件下载时)...
- 特别有趣的spyder运行程序
- CSS 边框四个角效果
- LeetCode-55. 跳跃游戏
- java无法下载jnlp_无法加载jnlp文件
- 大数据相加_大数据相加
- C语言利用顺序表求两个集合的差集
- Proteus仿真工程文件打不开
- 对汽车供应商的评估需要哪些数据?
- sql developer使用技巧,快捷键
热门文章
- 生态篇-HBase 进化之从 NoSQL 到 NewSQL,凤凰涅槃成就 Phoenix...
- 手机投屏不是全屏怎么办_手机投屏怎样才能全屏
- 处理器与大力神杯,夺冠或许并不需要11人
- ios微信一直显示未连接到服务器,关于微信分享显示“正在连接”,“未验证应用”以及未正确加载apple-app-site-association配置文件问题说明...
- 用浏览器访问云服务器文件,浏览器访问云服务器文件
- 关于22年应届生就业难发表一些自己的想法
- Android从驱动到应用开发实例分析
- 将hexo博客部署到阿里云服务器
- java keyevent 组合键_JAVA中KeyEvent类键盘各键的代码
- php 开源cms 族谱,bloofoxCMS