全网最详细的Hadoop文章系列，强烈建议收藏加关注！

后面更新文章都会列出历史文章目录，帮助大家回顾知识重点。

本系列历史文章

前言

Hadoop的联邦机制 Federation

背景概述

Federation架构设计

HDFS Federation加高可用

本系列历史文章

2021年大数据Hadoop（三十）：Hadoop3.x的介绍

2021年大数据Hadoop（二十九）：关于YARN常用参数设置

2021年大数据Hadoop（二十八）：YARN的调度器Scheduler

2021年大数据Hadoop（二十七）：YARN运行流程

2021年大数据Hadoop（二十六）：YARN三大组件介绍

2021年大数据Hadoop（二十五）：YARN通俗介绍和基本架构

2021年大数据Hadoop（二十四）：MapReduce高阶训练

2021年大数据Hadoop（二十三）：MapReduce的运行机制详解

2021年大数据Hadoop（二十二）：MapReduce的自定义分组

2021年大数据Hadoop（二十一）：MapReuce的Combineer

2021年大数据Hadoop（二十）：MapReduce的排序和序列化

2021年大数据Hadoop（十九）：MapReduce分区

2021年大数据Hadoop（十八）：MapReduce程序运行模式和深入解析

2021年大数据Hadoop（十七）：MapReduce编程规范及示例编写

2021年大数据Hadoop（十六）：MapReduce计算模型介绍

2021年大数据Hadoop（十五）：Hadoop的联邦机制 Federation

2021年大数据Hadoop（十四）：HDFS的高可用机制

2021年大数据Hadoop（十三）：HDFS意想不到的其他功能

2021年大数据Hadoop（十二）：HDFS的API操作

2021年大数据Hadoop（十一）：HDFS的元数据辅助管理

2021年大数据Hadoop（十）：HDFS的数据读写流程

2021年大数据Hadoop（九）：HDFS的高级使用命令

2021年大数据Hadoop（八）：HDFS的Shell命令行使用

2021年大数据Hadoop（七）：HDFS分布式文件系统简介

2021年大数据Hadoop（六）：全网最详细的Hadoop集群搭建

2021年大数据Hadoop（五）：Hadoop架构

2021年大数据Hadoop（四）：Hadoop发行版公司

2021年大数据Hadoop（三）：Hadoop国内外应用

2021年大数据Hadoop（二）：Hadoop发展简史和特性优点

2021年大数据Hadoop（一）：Hadoop介绍

前言

2021大数据领域优质创作博客，带你从入门到精通，该博客每天更新，逐渐完善大数据各个知识体系的文章，帮助大家更高效学习。

有对大数据感兴趣的可以关注微信公众号：三帮大数据

Hadoop的联邦机制 Federation

背景概述

单NameNode的架构使得HDFS在集群扩展性和性能上都有潜在的问题，当集群大到一定程度后，NameNode进程使用的内存可能会达到上百G，NameNode成为了性能的瓶颈。因而提出了namenode水平扩展方案-- Federation。

Federation中文意思为联邦,联盟，是NameNode的Federation,也就是会有多个NameNode。多个NameNode的情况意味着有多个namespace(命名空间)，区别于HA模式下的多NameNode，它们是拥有着同一个namespace。现有的HDFS数据管理架构,如下图所示:

从上图中,我们可以很明显地看出现有的HDFS数据管理,数据存储2层分层的结构.也就是说,所有关于存储数据的信息和管理是放在NameNode这边,而真实数据的存储则是在各个DataNode下.而这些隶属于同一个NameNode所管理的数据都是在同一个命名空间下的.

一个namespace对应一个block pool。Block Pool是同一个namespace下的block的集合.当然这是我们最常见的单个namespace的情况,也就是一个NameNode管理集群中所有元数据信息的时候.如果我们遇到了之前提到的NameNode内存使用过高的问题,这时候怎么办?元数据空间依然还是在不断增大,一味调高NameNode的jvm大小绝对不是一个持久的办法.这时候就诞生了HDFS Federation的机制.

Federation架构设计

HDFS Federation是解决namenode内存瓶颈问题的水平横向扩展方案。

Federation意味着在集群中将会有多个namenode和namespace。这些namenode之间是联合的，也就是说，他们之间相互独立且不需要互相协调，各自分工，管理自己的区域。分布式的datanode被用作通用的数据块存储存储设备。每个datanode要向集群中所有的namenode注册，且周期性地向所有namenode发送心跳和块报告，并执行来自所有namenode的命令。

Federation一个典型的例子就是上面提到的NameNode内存过高问题,我们完全可以将上面部分大的文件目录移到另外一个NameNode上做管理.更重要的一点在于,这些NameNode是共享集群中所有的DataNode的,它们还是在同一个集群内的。

这时候在DataNode上就不仅仅存储一个Block Pool下的数据了,而是多个。

概括起来：

多个NN共用一个集群里的存储资源，每个NN都可以单独对外提供服务。

每个NN都会定义一个存储池（block pool），有单独的id，每个DN都为所有存储池提供存储。

DN会按照存储池id向其对应的NN汇报块信息，同时，DN会向所有NN汇报本地存储可用资源情况。

HDFS Federation加高可用

HDFS Federation并没有完全解决单点故障问题。虽然namenode/namespace存在多个，但是从单个namenode/namespace看，仍然存在单点故障：如果某个namenode挂掉了，其管理的相应的文件便不可以访问。Federation中每个namenode仍然像之前HDFS上实现一样，配有一个secondary namenode，以便主namenode挂掉一下，用于还原元数据信息。

所以一般集群规模真的很大的时候，会采用HA+Federation的部署方案。也就是每个联合的namenodes都是ha的。

2021年大数据Hadoop（十五）：Hadoop的联邦机制 Federation相关推荐
1. 2021年大数据HBase（五）：HBase的相关操作JavaAPI方式
  全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录系列历史文章前言 HBase的相关操作-JavaAPI方式一.需求说明 ...
2. 2021年大数据Kafka（五）：❤️Kafka的java API编写❤️
  全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录系列历史文章 Kafka的java API编写一.生产者代码第一步: ...
3. 2021年大数据Hive（五）：Hive的内置函数（数学、字符串、日期、条件、转换、行转列）
  全网最详细的Hive文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录系列历史文章前言 Hive的内置函数一.数学函数 1. 取整函数: round ...
4. 2021年大数据发展十大趋势：抓准一个，就能掌握先机！
  导读:如何激活数据价值.真正从大数据中"淘金",成为2021年大数据的重中之重.大数据究竟如何持续不断地影响组织和机构,以及它给这个世界带来了何种影响,本文特别梳理出2021年大数 ...
5. 2021年大数据ELK（五）：Elasticsearch中的核心概念
  全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录系列历史文章 Elasticsearch中的核心概念一.索引 index 二 ...
6. 2021年大数据基础（五）：分布式技术
  2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据目录分布式技术为什么需要 ...
7. 2021年大数据Spark（五十二）：Structured Streaming 事件时间窗口分析
  目录事件时间窗口分析时间概念 event-time 延迟数据处理延迟数据 Watermarking 水位官方案例演示事件 ...
8. 2021年大数据Spark（五十）：Structured Streaming 案例一实时数据ETL架构
  目录案例一实时数据ETL架构准备主题模拟基站日志数据实时增量ETL 案例一实时数据ETL架构在实际实时流式项目中,无论使用Storm.SparkStreami ...
9. 2021年大数据Spark（五）：大环境搭建本地模式 Local
  目录环境搭建-Local 安装包下载运行spark-shell 开箱即用 spark-shell说明初体验-读取本地文件初体验-读取HDFS文件监控页面环境搭建 ...
10. 2021年大数据Flink（五）：Standalone-HA高可用集群模式
  目录 Standalone-HA高可用集群模式原理操作 1.集群规划 2.启动ZooKeeper 3.启动HDFS 4.停止Flink集群 5.修改flink-conf.yaml 6.修改mast ...
最新文章
热门文章

2021年大数据Hadoop（十五）：Hadoop的联邦机制 Federation

本系列历史文章

前言

Hadoop的联邦机制 Federation

背景概述

Federation架构设计

HDFS Federation加高可用

2021年大数据Hadoop（十五）：Hadoop的联邦机制 Federation相关推荐

最新文章

热门文章