Hadoop的体系结构:都是主从结构

一、HDFS的体系结构

1、NameNode:主节点

http://192.168.160.111:50070

(1)职责:管理维护HDFS

接收客户端的请求:上传、下载、创建目录等等

维护了两个非常重要的文件:edits文件 ---->记录操作日志

fsimage文件----->HDFS的元信息

(2)HDFS操作日志:edits文件

(*)位置:find . -name edits*

最新的操作日志:edits_inprogress****

(*)都是二进制

(*)HDFS提供一个工具:edits viewer 日志查看器 ----->XML

(*)Demo:

hdfs dfs -mkdir /mydemo

hdfs oev -i edits_inprogress_000000000000000106 -o ~/a.xml

(3)HDFS的元信息:fsimage文件

(*)就跟edits文件在一起

(*)记录:数据块的位置、冗余信息

(*)也是一个二进制

(*)HDFS提供一个 image viewer ----->文本或者xml

hdfs oiv -i fsimage_00000000000000005 -o ~/b.xml -p XML

(4)问题:edits文件和fsimage文件,哪个文件体现了HDFS最新的状态?

答案:edits文件,edits记录最新的状态在edits_inprogress文件中

2、DataNode:保存数据块

(1)1.x版本默认数据块大小为:64M    2.x版本默认数据块大小为:128M

(2)位置:find . -name blk*

(3)Demo:上传一个大于128M的文件

hdfs dfs -put hadoop-2.7.3.tar.gz /tools

查看数据块的文件

(4)一般原则:数据块的冗余度一般跟数据节点个数一致,最大不要超过3,在生产环境下,至少两个数据节点

3、SecondaryNameNode:第二名称节点

(*)作用:把edits中最新的状态信息合并到fsimage文件中

(*)合并过程

(*)Web Console:http://192.157.111:50090

(*)检查点:checkpoint

补充一个知识:oracle数据库中也有检查点,如果发生检查点,会以最高优先级唤醒数据库写进程(DBWN)把内存中的脏数据写到数据文件上(持久化)

二、Yarn的体系结构

日志:

18/04/07 20:24:34 INFO client.RMProxy: Connecting to ResourceManager at bigdata111/192.168.157.111:8032

1、主从结构:ResourceManager、NodeManager

2、调度MapReduce任务过程

3、资源分配的方式(3种)

(1)FIFO Scheduler:先来先得,缺点:没有考虑任务的优先级

(2)Capacity Scheduler:容器管理

(3)Fair Scheduler:公平调度(注意:安装配置Hive on Spark,需要配置Yarn为Fair Scheduler)

前提:假设每个任务具有相同的优先级,平均分配系统的资源

三、HBase的体系结构

(*)主从结构

(*)基于HDFS之上的一个NoSQL数据库

(*)列式数据库

(*)基于Key - Value----->Redis

1、主节点:HMaster

从节点:RegionServer

2、画图解释:

四、只要是主从结构的都会存在单点故障,解决方案:

Hadoop的体系结构相关推荐

  1. 2018-07-21期 Hadoop Yarm体系结构剖析

    一.简介 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度. 其核心出发点是为了分离资源管理与作业调度/监控,实 ...

  2. Hadoop对Spark:正面比拼报告(架构、性能、成本、安全性和机器学习)

    来自:网络大数据 每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Hadoop和Spark是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据 ...

  3. Hadoop 2.X 从入门到精通系列视频课程套餐

    购买大数据Hadoop课程套餐,享八五折优惠!! 套餐地址:http://edu.51cto.com/pack/view/id-806.html 赵强老师博客地址:http://collen7788. ...

  4. Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...

  5. 一步步教你Hadoop多节点集群安装配置

    一步步教你Hadoop多节点集群安装配置 1.集群部署介绍 1.1 Hadoop简介  Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统HDFS(Hado ...

  6. BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略

    BigData之Hadoop:Hadoop的简介.深入理解.下载.案例应用之详细攻略 目录 Hadoop的简介 1.HDFS体系结构图 Hadoop的深入理解 0.深入了解Hadoop的其它相关基础知 ...

  7. hadoop集群环境搭建

    参考文章: https://www.linuxidc.com/Linux/2016-02/128149.htm https://blog.csdn.net/circyo/article/details ...

  8. Hadoop集群完全分布式模式环境部署

    Hadoop集群完全分布式模式环境部署 2013-09-13 17:24:14 分类: HADOOP Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop ...

  9. 大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图

    大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图 http://edu.51cto.com/roadmap/view/id-29.html http://my.oschina.net/i ...

最新文章

  1. 计算机科学精彩帖子收集
  2. 深度学习面试题09:一维卷积(Full卷积、Same卷积、Valid卷积、带深度的一维卷积)...
  3. 达梦数据库、oracle数据库如何判断指定表有没有建立索引?对应的表有没有索引查询方法
  4. Valhalla项目:LW2内联类型的初步了解
  5. RSA不下载批次的问题
  6. 什么网了解c语言,什么是c语言?
  7. C++ multimap 用法总结 例子
  8. oracle插入百万测试,Oracle中插入大量测试数据
  9. 缓存框架 EhCache 使用 2
  10. python和r语言生物信息学_R语言和Python哪个适合生物信息学?
  11. 偶尔出现 指定 网络名不再可用 错误提示 MS-SQL Server 基础类(尤其是在文件下载时)...
  12. 特别有趣的spyder运行程序
  13. CSS 边框四个角效果
  14. LeetCode-55. 跳跃游戏
  15. java无法下载jnlp_无法加载jnlp文件
  16. 大数据相加_大数据相加
  17. C语言利用顺序表求两个集合的差集
  18. Proteus仿真工程文件打不开
  19. 对汽车供应商的评估需要哪些数据?
  20. sql developer使用技巧,快捷键

热门文章

  1. 生态篇-HBase 进化之从 NoSQL 到 NewSQL,凤凰涅槃成就 Phoenix...
  2. 手机投屏不是全屏怎么办_手机投屏怎样才能全屏
  3. 处理器与大力神杯,夺冠或许并不需要11人
  4. ios微信一直显示未连接到服务器,关于微信分享显示“正在连接”,“未验证应用”以及未正确加载apple-app-site-association配置文件问题说明...
  5. 用浏览器访问云服务器文件,浏览器访问云服务器文件
  6. 关于22年应届生就业难发表一些自己的想法
  7. Android从驱动到应用开发实例分析
  8. 将hexo博客部署到阿里云服务器
  9. java keyevent 组合键_JAVA中KeyEvent类键盘各键的代码
  10. php 开源cms 族谱,bloofoxCMS