HDFS分布式文件存储系统

1. Hadoop是什么

1.1 Hadoop架构

Hadoop由三个模块组成：分布式文件存储HDFS、分布式计算MapReduce、资源调度引擎Yarn

1.2 分布式是什么

分布式：利用一批通过网络连接的、廉价普通的机器，完成单个机器无法完成的存储、计算任务

1.3 HDFS是什么

Hadoop分布式文件系统

1.4 为什么使用HDFS

高可用、容错、可扩展

2.核心概念block

2.1 数据块block

2.1.1 HDFS block块

HDFS3.x上的文件，是按照128M为单位，切分成一个个block，分散存储在集群的不同数据节点datanode上

问：HDFS中一个44M大小的块会不会占据128M的空间？不会

2.2 block副本保正数据的可用及容错

replication = 3

dfs-site.xml

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

实际机房中，会有机架，每个机架上若干服务器

3.机架存储策略

4. HDFS体系架构

HDFS是主从架构Master/Slave、管理节点/工作节点
4.1 NameNode
fs文件系统，用来存储、读取数据

NameNode主要用来干嘛的?

1. 管理节点，负责管理文件系统和命名空间，存放了HDFS的元数据；
2. 元数据信息包括文件系统树、整棵树所有的文件和目录、每个文件的块列表、块所在的datanode等；
3. 元数据信息以命名空间镜像文件fsimage和编辑日志（edits log）的方式保存
Fsimage：元数据镜像文件，保存了文件系统目录树信息以及文件和块的对应关系
edits log：日志文件，保存文件系统的更改记录

4.2 DataNode
存储block，以及block元数据包括数据块的长度、块数据的校验和、时间戳
4.3 SeconddaryNameNode
它一般部署在另外一台节点上，因为它需要占用大量的CPU时间，并需要与namenode一样多的内存，来执行合并
操作

5.HDFS心跳机制

工作原理：
1. master启动的时候，会开一个ipc server在那里。

2. slave启动，连接master，每隔3秒钟向master发送一个“心跳”，携带状态信息；
3. master通过这个心跳的返回值，向slave节点传达指令
作用：
1. Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告
(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该 Datanode上所
有数据块的列表
2. DataNode启动后向NameNode注册，通过后，周期性（1小时）的向 NameNode上报所有的块的列表；
每3秒向NamNode发一次心跳，返回NameNode给该DataNode的命令；如复制块数据到另一台机器，或删
除某个数据块。如果NameNode超过10分钟没有收到某个DataNode 的心跳，则认为该节点不可用。
3. hadoop集群刚开始启动时，会进入安全模式（99.9%），就用到了心跳机制

6.HDFS写流程介绍

这里描述的是一个256M的文件上传过程

① 由客户端向 NameNode节点发出请求

②NameNode 向Client返回可以存数据的 DataNode 这里遵循 机架感应 原则

③客户端首先根据返回的信息先将文件分块（Hadoop2.X版本每一个block为 128M 而之前的版本为 64M）

④然后通过nameNode返回的DataNode信息直接发送给DataNode 并且是流式写入同时会复制到其他两台机器

⑤dataNode 向 Client通信表示已经传完数据块同时向NameNode报告

⑥依照上面（④到⑤）的原理将所有的数据块都上传结束向 NameNode 报告表明已经传完所有的数据块

这样整个HDFS上传流程就走完了

7.HDFS读流程介绍

1、client跟namenode通信查询元数据，找到文件块所在的datanode服务器

2、随机挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流

3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）

4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件