2021年大数据Hadoop(十五):Hadoop的联邦机制 Federation
全网最详细的Hadoop文章系列,强烈建议收藏加关注!
后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。
目录
本系列历史文章
前言
Hadoop的联邦机制 Federation
背景概述
Federation架构设计
HDFS Federation加高可用
本系列历史文章
2021年大数据Hadoop(三十):Hadoop3.x的介绍
2021年大数据Hadoop(二十九):关于YARN常用参数设置
2021年大数据Hadoop(二十八):YARN的调度器Scheduler
2021年大数据Hadoop(二十七):YARN运行流程
2021年大数据Hadoop(二十六):YARN三大组件介绍
2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构
2021年大数据Hadoop(二十四):MapReduce高阶训练
2021年大数据Hadoop(二十三):MapReduce的运行机制详解
2021年大数据Hadoop(二十二):MapReduce的自定义分组
2021年大数据Hadoop(二十一):MapReuce的Combineer
2021年大数据Hadoop(二十):MapReduce的排序和序列化
2021年大数据Hadoop(十九):MapReduce分区
2021年大数据Hadoop(十八):MapReduce程序运行模式和深入解析
2021年大数据Hadoop(十七):MapReduce编程规范及示例编写
2021年大数据Hadoop(十六):MapReduce计算模型介绍
2021年大数据Hadoop(十五):Hadoop的联邦机制 Federation
2021年大数据Hadoop(十四):HDFS的高可用机制
2021年大数据Hadoop(十三):HDFS意想不到的其他功能
2021年大数据Hadoop(十二):HDFS的API操作
2021年大数据Hadoop(十一):HDFS的元数据辅助管理
2021年大数据Hadoop(十):HDFS的数据读写流程
2021年大数据Hadoop(九):HDFS的高级使用命令
2021年大数据Hadoop(八):HDFS的Shell命令行使用
2021年大数据Hadoop(七):HDFS分布式文件系统简介
2021年大数据Hadoop(六):全网最详细的Hadoop集群搭建
2021年大数据Hadoop(五):Hadoop架构
2021年大数据Hadoop(四):Hadoop发行版公司
2021年大数据Hadoop(三):Hadoop国内外应用
2021年大数据Hadoop(二):Hadoop发展简史和特性优点
2021年大数据Hadoop(一):Hadoop介绍
前言
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习。
有对大数据感兴趣的可以关注微信公众号:三帮大数据
Hadoop的联邦机制 Federation
背景概述
单NameNode的架构使得HDFS在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode进程使用的内存可能会达到上百G,NameNode成为了性能的瓶颈。因而提出了namenode水平扩展方案-- Federation。
Federation中文意思为联邦,联盟,是NameNode的Federation,也就是会有多个NameNode。多个NameNode的情况意味着有多个namespace(命名空间),区别于HA模式下的多NameNode,它们是拥有着同一个namespace。现有的HDFS数据管理架构,如下图所示:
从上图中,我们可以很明显地看出现有的HDFS数据管理,数据存储2层分层的结构.也就是说,所有关于存储数据的信息和管理是放在NameNode这边,而真实数据的存储则是在各个DataNode下.而这些隶属于同一个NameNode所管理的数据都是在同一个命名空间下的.
一个namespace对应一个block pool。Block Pool是同一个namespace下的block的集合.当然这是我们最常见的单个namespace的情况,也就是一个NameNode管理集群中所有元数据信息的时候.如果我们遇到了之前提到的NameNode内存使用过高的问题,这时候怎么办?元数据空间依然还是在不断增大,一味调高NameNode的jvm大小绝对不是一个持久的办法.这时候就诞生了HDFS Federation的机制.
Federation架构设计
HDFS Federation是解决namenode内存瓶颈问题的水平横向扩展方案。
Federation意味着在集群中将会有多个namenode和namespace。这些namenode之间是联合的,也就是说,他们之间相互独立且不需要互相协调,各自分工,管理自己的区域。分布式的datanode被用作通用的数据块存储存储设备。每个datanode要向集群中所有的namenode注册,且周期性地向所有namenode发送心跳和块报告,并执行来自所有namenode的命令。
Federation一个典型的例子就是上面提到的NameNode内存过高问题,我们完全可以将上面部分大的文件目录移到另外一个NameNode上做管理.更重要的一点在于,这些NameNode是共享集群中所有的DataNode的,它们还是在同一个集群内的。
这时候在DataNode上就不仅仅存储一个Block Pool下的数据了,而是多个 。
概括起来:
多个NN共用一个集群里的存储资源,每个NN都可以单独对外提供服务。
每个NN都会定义一个存储池(block pool),有单独的id,每个DN都为所有存储池提供存储。
DN会按照存储池id向其对应的NN汇报块信息,同时,DN会向所有NN汇报本地存储可用资源情况。
HDFS Federation加高可用
HDFS Federation并没有完全解决单点故障问题。虽然namenode/namespace存在多个,但是从单个namenode/namespace看,仍然存在单点故障:如果某个namenode挂掉了,其管理的相应的文件便不可以访问。Federation中每个namenode仍然像之前HDFS上实现一样,配有一个secondary namenode,以便主namenode挂掉一下,用于还原元数据信息。
所以一般集群规模真的很大的时候,会采用HA+Federation的部署方案。也就是每个联合的namenodes都是ha的。
-
2021年大数据Hadoop(十五):Hadoop的联邦机制 Federation相关推荐
- 2021年大数据HBase(五):HBase的相关操作JavaAPI方式
全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 HBase的相关操作-JavaAPI方式 一.需求说明 ...
- 2021年大数据Kafka(五):❤️Kafka的java API编写❤️
全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 Kafka的java API编写 一.生产者代码 第一步: ...
- 2021年大数据Hive(五):Hive的内置函数(数学、字符串、日期、条件、转换、行转列)
全网最详细的Hive文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 系列历史文章 前言 Hive的内置函数 一.数学函数 1. 取整函数: round ...
- 2021年大数据发展十大趋势:抓准一个,就能掌握先机!
导读:如何激活数据价值.真正从大数据中"淘金",成为2021年大数据的重中之重.大数据究竟如何持续不断地影响组织和机构,以及它给这个世界带来了何种影响,本文特别梳理出2021年大数 ...
- 2021年大数据ELK(五):Elasticsearch中的核心概念
全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 Elasticsearch中的核心概念 一.索引 index 二 ...
- 2021年大数据基础(五):分布式技术
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 分布式技术 为什么需要 ...
- 2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析
目录 事件时间窗口分析 时间概念 event-time 延迟数据处理 延迟数据 Watermarking 水位 官方案例演示 事件 ...
- 2021年大数据Spark(五十):Structured Streaming 案例一实时数据ETL架构
目录 案例一 实时数据ETL架构 准备主题 模拟基站日志数据 实时增量ETL 案例一 实时数据ETL架构 在实际实时流式项目中,无论使用Storm.SparkStreami ...
- 2021年大数据Spark(五):大环境搭建本地模式 Local
目录 环境搭建-Local 安装包下载 运行spark-shell 开箱即用 spark-shell说明 初体验-读取本地文件 初体验-读取HDFS文件 监控页面 环境搭建 ...
- 2021年大数据Flink(五):Standalone-HA高可用集群模式
目录 Standalone-HA高可用集群模式 原理 操作 1.集群规划 2.启动ZooKeeper 3.启动HDFS 4.停止Flink集群 5.修改flink-conf.yaml 6.修改mast ...
最新文章
- 这几本豆瓣高分设计好书,人人都应该读!
- OSPF多区域;特殊区域;
- 黑马程序员java笔记之二-----多线程
- 下一代防火墙信息收集(概念篇)
- 有意思的前端函数面试题
- MySQL Binlog Mixed模式记录成Row格式
- C的|、||、、、异或、~
- Matplotlib - 柱状图、直方图、条形图 bar() barh() 所有用法详解
- HTTP协议及URL统一资源定位符详解
- pictureselector 压缩_Android 多图选择器PictureSelector 使用
- winform上传文件解决方案
- 10.leetcode83-Remove Diplicates from Sorted List
- 如何调试 chrome插件
- 教你年入100万,互联网赚钱三板斧!
- RabbitMQ3.10.7高级特性
- ps2021中文版完美逆袭
- 卷积神经网络和图像分类识别
- Ceph剖析:Leader选举
- 谷歌浏览器翻译英文网页功能消失解决方案
- MAX13487EESA+T
热门文章
- 2021年大数据HBase(五):HBase的相关操作JavaAPI方式