【Hadoop】HDFS三组件：NameNode、SecondaryNameNode和DataNode

2024-06-16 03:44:49

HDFS主要由三个组件构成，分别是NameNode、SecondaryNameNode和DataNode，其中NameNode和SecondaryNameNode运行在master节点上，DataNode运行在slave节点上。

HDFS架构如下图：

1. NameNode

NameNode管理HDFS文件系统的命名空间，它维护文件系统树及树中的所有文件和目录。同时NameNode也负责这些文件和目录的打开、关闭、移动和重命名等操作。而实际文件数据的操作是由DataNode负责。

当Client端发起请求，该请求首先会到达NameNode，NameNode分析请求，然后告诉Client该去哪个DataNode上找什么位置的数据块。得到消息后的Client会直接和DataNode进行交互。

NameNode中元数据种类有：

（1）文件名目录及它们的层级关系；（2）文件目录的所有者及其权限；（3）每个文件块的名称及文件有哪些块组成。

需要注意的是，NameNode保存的元数据信息并不包含每个数据块的位置信息，只包含块的名称及文件由哪些块组成。块的位置信息会在NameNode每次重启时从DataNode获取，并且NameNode通过心跳机制和DataNode保持通信，实时监控文件系统是否在正常运行。

2. DataNode

DataNode运行在slave节点上，也称为工作节点。它负责存储数据块，也负责为Client端提供读写服务，同时还接收NameNode指令，进行创建、删除和复制等操作。DataNode还通过心跳机制定期向NameNode发送所存储文件块列表信息。并且DataNode还和其他DataNode节点通信，复制数据块已达到冗余的目的。

3. SecondaryNameNode

NameNode元数据信息存储在FsImage中，NameNode每次重启后会把FsImage读取到内存中，在运行过程中为了防止数据丢失，NameNode的操作会被不断的写入本地EditLog文件中。

当检查点被触发，FsImage会把EditLog文件中的操作应用一遍，然后把新版的FsImage写回磁盘中，删除EditLog文件中旧的事务信息。检查点有两种触发机制：（1）按秒为单位的时间间隔触发（dfs.namenode.checkpoint.period）；（2）达到文件系统累加的事务值触发（dfs.namenode.checkpoint.txns）。

FsImage和EditLog文件的合并就用到了SecondaryNameNode组件，它的工作过程如下：

（1）合并之前通知NameNode把所有操作写入新的EditLog文件中，并将其命名为edits.new；

（2）SecondaryNameNode从NameNode处请求合并FsImage和EditLog；

（3）SecondaryNameNode把FsImage和EditLog合并为新的FsImage文件；

（4）NameNode从SecondaryNameNode获取合并好的新的FsImage并将旧的替换掉，并把EditLog用（1）中创建的edits.new替换。

（5）更新Fstime中的检查点。

总而言之：

（1）FsImage：保存的是上个检查点的HDFS的元数据信息；

（2）EditLog：保存的是从上个检查点开始发生的HDFS元数据信息状态改变信息；

（3）Fstime：保存了最后一个检查点的时间戳。

【Hadoop】HDFS三组件：NameNode、SecondaryNameNode和DataNode相关推荐

Hadoop系列 (三)：HDFS详细介绍
文章目录 Hadoop系列文章 HDFS简介 HDFS基本概念分布式文件系统特点 HDFS设计目标 HDFS架构 HDFS应用场景 HDFS三大组件 NameNode SecondaryNameNo ...
ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpoint
grep -ri Exception得到如下信息: /home/appleyuchi/bigdata/hadoop-3.2.1/logs/hadoop-appleyuchi-secondaryname ...
Hadoop基础-Hdfs各个组件的运行原理介绍
Hadoop基础-Hdfs各个组件的运行原理介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...
Python +大数据-hadoop生态-hadoop(三)--Hadoop HDFS
Python +大数据-hadoop生态-hadoop(三)–Hadoop HDFS 今日课程学习目标理解分布式文件存储的概念与实现掌握HDFS分块存储.副本机制等特性学会shell操作HDFS ...
云服务器（阿里云，百度云，华为云，腾讯云）搭建Hadoop（Nameode，SecondaryNamenode，datanode）
写这篇文章是为了记录我自己在云平台上学习安装的过程,希望能为其他的同学提供一点帮助: 服务器类型这里我使用的服务器有: node1 阿里云(学生机)Ubuntu (NameNode) node2 百 ...
云计算学习笔记---异常处理---hadoop问题处理ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.lang.NullPoin
云计算学习笔记---异常处理---hadoop问题处理ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.lang.NullPoin ...
hadoop实战(三) 使用HDFS操作文件
一.hadoop简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNo ...
Hadoop HDFS源码学习之NameNode部分
NameNode源码学习文章目录 NameNode源码学习一.文件系统目录树(第一关系) 2.1 INode相关类 2.2 快照特性的实现 2.3 FSEditLog类 2.4 FSImage类 ...
org.apache.hadoop.hdfs.server.namenode.SafeModeException
原文出自:http://hi.baidu.com/zhy65991/item/8428013fcf459e342f0f8158 safemode模式 NameNode在启动的时候首先进入安全模式,如果 ...

最新文章

热门文章