课程链接:
尚硅谷大数据Hadoop 3.x(入门搭建+安装调优)_哔哩哔哩_bilibili

(Hadoop到底是干什么用的? - 知乎 (zhihu.com)

资料

Hadoop中文文档 (apache.org)

第 1 章 HDFS 概述

1.1 HDFS 产出背景及定义

1、HDFS 产生背景
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。

2、HDFS 定义
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

3、HDFS 的使用场景:

​ 适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

1.2 HDFS 优缺点

优点

1、高容错性
数据自动保存多个副本。它通过增加副本的形式,提高容错性。

  • 某一个副本丢失以后,它可以自动恢复。

2、适合处理大数据

  • 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
  • 文件规模:能够处理百万规模以上的文件数量,数量相当之大。

3、可构建在廉价机器上,通过多副本机制,提高可靠性

HDFS缺点

1、不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
2、无法高效的对大量小文件进行存储。

  • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
  • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。

3、不支持并发写入、文件随机修改。

  • 一个文件只能有一个写,不允许多个线程同时写;
  • 仅支持数据append(追加),不支持文件的随机修改。

1.3 HDFS 组成架构

1、NameNode(nn):就是Master,它是一个主管、管理者。

  • 管理HDFS的名称空间;
  • 配置副本策略;
  • 管理数据块(Block)映射信息;
  • 处理客户端读写请求。

2、DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。

  • 存储实际的数据块;
  • 执行数据块的读/写操作。

3、Client:就是客户端。

  • 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
  • 与NameNode交互,获取文件的位置信息;
  • 与DataNode交互,读取或者写入数据;
  • Client提供一些命令来管理HDFS,比如NameNode格式化;
  • Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;

4、Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。

  • 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
  • 在紧急情况下,可辅助恢复NameNode。

1.4 HDFS 文件块大小(面试重点)

​ HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数 ( dfs.blocksize)来规定,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。

思考:

为什么块的大小不能设置太小,也不能设置太大?
(1)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;
(2)如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。

机器硬盘 100M/s =>设置 块的大小为128M ,固态硬盘 200M/s =>设置 块的大小为156

总结:HDFS块的大小设置主要取决于磁盘传输速率。

第 2 章 HDFS 的 Shell 操作(开发重点)

基本语法

hadoop fs 具体命令hdfs dfs 具体命令 两个是完全相同的。

命令大全

[root@hadoop102 ~]$ hadoop fs
Usage: hadoop fs [generic options][-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum <src> ...]
# ...

常用命令实操

2.1 准备工作

1)启动 Hadoop 集群(方便后续的测试)

[root@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
[root@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

2)-help:输出这个命令参数

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -help rm

3)创建/sanguo 文件夹

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /mytest

2.2上传

1、-moveFromLocal:从本地剪切粘贴到 HDFS

$ hadoop fs -moveFromLocal mytest/test.txt /mytest
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
Hello Hadoop
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -moveFromLocal mytest/test.txt /mytest
2022-02-18 20:42:29,398 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
cat: mytest/test.txt: No such file or directory

2、-copyFromLocal:从本地文件系统中拷贝文件到 HDFS 路径去

$ hadoop fs -copyFromLocal mytest/test.txt /mytest
[root@hadoop102 hadoop-3.1.3]$ echo "Hello Hadoop" >> mytest/test.txt
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm /mytest/test.txt
Deleted /mytest/test.txt
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -copyFromLocal mytest/test.txt /mytest
2022-02-18 20:45:52,754 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
Hello Hadoop

4、-put:等同于 copyFromLocal,生产环境更习惯用 put

$ hadoop fs -put mytest/test.txt /mytest

5、-appendToFile:追加一个文件到已经存在的文件末尾

[root@hadoop102 hadoop-3.1.3]$ echo "一个平凡de人" >> mytest/test2.txt
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -appendToFile mytest/test2.txt /mytest/test.txt
  • File contents
Hello Hadoop
一个平凡de人

2.3.3 下载

1、-copyToLocal:从 HDFS 拷贝到本地

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -copyToLocal /mytest/test.txt mytest
2022-02-18 20:52:12,853 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
Hello Hadoop
一个平凡de人

2、-get:等同于 copyToLocal,生产环境更习惯用 get

$ hadoop fs -get /mytest/test.txt mytest

2.4 HDFS 直接操作

1、-ls: 显示目录信息

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -ls /mytest
Found 1 items
-rw-r--r--   3 root supergroup         31 2022-02-18 20:48 /mytest/test.txt

2、-cat:显示文件内容

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -cat /mytest/test.txt
2022-02-18 20:54:05,064 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
Hello Hadoop
一个平凡de人

3、-chgrp、-chmod、-chown:Linux 文件系统中的用法一样,修改文件所属权限

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -chmod 777 /mytest/test.txt
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -chown root:root /mytest/test.txt

4、-mkdir:创建路径

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /mytest02

5、-cp:从 HDFS 的一个路径拷贝到 HDFS 的另一个路径

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -cp /mytest/test.txt /mytest02

6、-mv:在 HDFS 目录中移动文件

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -mv /mytest02/test.txt /

7、-tail:显示一个文件的末尾 1kb 的数据

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -tail /mytest/test.txt

8、-rm:删除文件或文件夹

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm /mytest/test.txt

9、-rm -r:递归删除目录及目录里面内容

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /mytest

10、-du 统计文件夹的大小信息

[root@hadoop102 ~]$ hadoop fs -du -s -h /mytest
31  93  /mytest
[root@hadoop102 ~]$ hadoop fs -du -h /mytest
31  93  /mytest/test.txt

说明:27 表示文件大小;81 表示 27*3 个副本;/mytest表示查看的目录

11、-setrep:设置 HDFS 中文件的副本数量

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -setrep 4 /mytest/test.txt

​ 这里设置的副本数只是记录在 NameNode 的元数据中,是否真的会有这么多副本,还得看 DataNode 的数量。因为目前只有 3 台设备,最多也就 3 个副本,只有节点数的增加到 10台时,副本数才能达到 10。

第 3 章 HDFS 的 API 操作

windows 远程访问和操作 集群

3.1 客户端环境准备

1、找到资料包路径下的 Windows 依赖文件夹,拷贝 hadoop-3.1.0 到非中文路径。

H:\Web-tool\hadoop-3.1.0\bin

2、配置 HADOOP_HOME 环境变量

%HADOOP_HOME%\bin

3、验证 Hadoop 环境变量是否正常。双击 winutils.exe,如果报如下错误。说明缺少微软运行库(正版系统往往有这个问题)。再资料包里面有对应的微软运行库安装包双击安装即可。

4、在 IDEA 中创建一个 Maven 工程 HdfsClientDemo,并导入相应的依赖坐标+日志添加

<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.30</version></dependency>
</dependencies>

5、在项目的 src/main/resources 目录下,新建一个文件,命名为“log4j.properties”,在文件中填入

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

6、创建包名:com.atguigu.hdfs

7、创建 HdfsClient

package com.atguigu.hdfs;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Test;
import java.net.URI;/*** 客户端代码* 1、获得客户端代码* 2、执行修改操作命令* 3、关闭资源* */
public class HdfsClient {@Testpublic void testMkdirs() throws java.io.IOException, java.net.URISyntaxException,InterruptedException {// 连接的集群nn地址URI uri = new URI("hdfs://hadoop102:8020");// 创建一个配置文件Configuration configuration = new Configuration();// 配置windows hadoop 的地址System.setProperty("hadoop.home.dir", "H:/Web-tool/hadoop-3.1.0/");// 配置用户String user = "root";// 1 获取到了客户端对象FileSystem fs = FileSystem.get(uri, configuration, user);// 2 创建目录fs.mkdirs(new Path("/mydict"));// 3 关闭资源fs.close();}
}
  • 运行

8、客户端去操作 HDFS 时,是有一个用户身份的。默认情况下,HDFS 客户端 API 会从采 用 Windows 默认用户访问 HDFS,会报权限异常错误。所以在访问 HDFS 时,一定要配置用户。

9、HdfsClient 之后要导入的包

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.yarn.webapp.hamlet2.Hamlet;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.nio.ByteBuffer;
import java.util.Arrays;

3.2 HDFS 的 API 案例实操

3.2.1 创建客户端对象类

HdfsClient 类中

public class HdfsClient {private FileSystem fs;@Beforepublic void init() throws URISyntaxException, IOException, InterruptedException {// 连接的集群nn地址URI uri = new URI("hdfs://hadoop102:8020");// 创建一个配置文件Configuration configuration = new Configuration();// 配置windows hadoop 的地址System.setProperty("hadoop.home.dir", "H:/Web-tool/hadoop-3.1.0/");// 用户String user = "root";// 1 获取到了客户端对象fs = FileSystem.get(uri, configuration, user);}@Afterpublic void close() throws IOException {// 3 关闭资源fs.close();}
}

@Before 运行开始自动执行

@After 运行结束之前自动执行

3.2.1 HDFS 文件上传

HDFS 文件上传

1、 org.apache.hadoop.fs.FileSystem 的 同名方法copyFromLocalFile不同参数

public void copyFromLocalFile(boolean delSrc, Path src, Path dst) throws IOException {this.copyFromLocalFile(delSrc, true, src, dst);
}public void copyFromLocalFile(boolean delSrc, boolean overwrite, Path[] srcs, Path dst) throws IOException {Configuration conf = this.getConf();FileUtil.copy(getLocal(conf), srcs, this, dst, delSrc, overwrite, conf);
}public void copyFromLocalFile(boolean delSrc, boolean overwrite, Path src, Path dst) throws IOException {Configuration conf = this.getConf();FileUtil.copy(getLocal(conf), src, this, dst, delSrc, overwrite, conf);
}public void copyToLocalFile(Path src, Path dst) throws IOException {this.copyToLocalFile(false, src, dst);
}

2、HdfsClient 类中测试

@Test
public void testPut() throws IOException{// 上传文件fs.copyFromLocalFile(new Path("H:/Desktop/test.txt"),new Path("/mydict"));
}

3、org.apache.hadoop.fs.FileSystem 的 文件移动方法 使用文件上传的方法

public void moveToLocalFile(Path src, Path dst) throws IOException {this.copyToLocalFile(true, src, dst);
}

3.2.3 测试参数优先级

参数优先级 参数优先级排序:

(1)客户端代码中设置的值 >(2)ClassPath 下的用户自定义配置文件 >

(3)然后是服务器的自定义配置(xxx-site.xml)>(4)服务器的默认配置(xxx-default.xml)

配置副本数量

1、将 hdfs-site.xml 拷贝到项目的 resources 资源目录

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>

2、运行

@Test
public void testCopyFromLocalFile() throws IOException{// 上传文件 delSrc:是否删除源文件 overweite:是否覆盖写fs.copyFromLocalFile(false,true,new Path("H:/Desktop/test.txt"),new Path("/mytest"));
}

3、客户端代码中设置的值

// 创建一个配置文件
Configuration configuration = new Configuration();
// 配置副本数量
configuration.set("dfs.replication", "2");

3.2.4 HDFS 文件下载

copyToLocalFile

@Test
public void testGet() throws IOException{// 执行下载操作// boolean delSrc 指是否将原文件删除// Path src 指要下载的文件路径// Path dst 指将文件下载到的路径// boolean useRawLocalFileSystem 是否开启文件校验fs.copyToLocalFile(false, new Path("/mydict/test.txt"), new Path("H:/Desktop/Mydict/test.txt"), true);
}

3.2.5 HDFS 文件更名和移动

// 修改文件名称
fs.rename(new Path("/mydict/test.txt"), new Path("/mydict/test02.txt"));

3.2.6 HDFS 文件详情查看

查看所有文件名称、权限、长度、块信息

@Test
public void testListFiles() throws IOException{// 获取文件详情RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);while (listFiles.hasNext()) {LocatedFileStatus fileStatus = listFiles.next();System.out.println("========" + fileStatus.getPath() + "=========");System.out.println(fileStatus.getPermission());System.out.println(fileStatus.getOwner());System.out.println(fileStatus.getGroup());System.out.println(fileStatus.getLen());System.out.println(fileStatus.getModificationTime());System.out.println(fileStatus.getReplication());System.out.println(fileStatus.getBlockSize());System.out.println(fileStatus.getPath().getName());// 获取块信息BlockLocation[] blockLocations = fileStatus.getBlockLocations();System.out.println(Arrays.toString(blockLocations));}
}

3.2.7 HDFS 文件和文件夹判断

// 判断是文件还是文件夹
FileStatus[] listStatus = fs.listStatus(new Path("/"));
for (FileStatus fileStatus : listStatus) {// 如果是文件if (fileStatus.isFile()) {System.out.println("文件:"+fileStatus.getPath().getName());}else {System.out.println("文件夹:"+fileStatus.getPath().getName());}
}

第 4 章 HDFS 的读写流程(面试重点)

4.1 HDFS 写数据流程

4.1.1 剖析文件写入

写数据流程图

(1)客户端通过 Distributed FileSystem (分布式文件系统)模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。

(2)NameNode 返回是否可以上传。

(3)客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。

(4)NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3。

(5)客户端通过 FSDataOutputStream 模块请求 dn1 上传数据,dn1 收到请求会继续调用dn2,然后 dn2 调用 dn3,将这个通信管道建立完成。

(6)dn1、dn2、dn3 逐级应答客户端。

(7)客户端开始往 dn1 上传第一个 Block(先从磁盘读取数据放到一个本地内存缓存),以 Packet 为单位,dn1 收到一个 Packet 就会传给 dn2,dn2 传给 dn3;dn1 每传一个 packet会放入一个应答队列等待应答。

(8)当一个 Block 传输完成之后,客户端再次请求 NameNode 上传第二个 Block 的服务器。(重复执行 3-7 步)。

4.1.2 网络拓扑-节点距离计算

​ 在 HDFS 写数据的过程中,NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢?

​ 节点距离:两个节点到达最近的共同祖先的距离总和。

设有数据中心 d1 机架 r1 中的节点 n1。该节点可以表示为/d1/r1/n1。利用这种标记,这里给出四种距离描述。

4.1.3 机架感知(副本存储节点选择)

1、机架感知说明

(1)官方说明

Apache Hadoop 3.1.3 – HDFS Architecture

(2)源码说明 Crtl + n 查找 BlockPlacementPolicyDefault,在该类中查找 chooseTargetInOrder 方法。

4.2 HDFS 读数据流程

读数据流程图

(1)客户端通过 DistributedFileSystem 向 NameNode 请求下载文件,NameNode 通过查询元数据,找到文件块所在的 DataNode 地址。

(2)挑选一台 DataNode(就近原则,然后随机)服务器,请求读取数据。

(3)DataNode 开始传输数据给客户端(从磁盘里面读取数据输入流,以 Packet 为单位来做校验)。

(4)客户端以 Packet 为单位接收,先在本地缓存,然后写入目标文件

串行读取不支持并发

第 5 章 NameNode 和 SecondaryNameNode(了解)

5.1 NN 和 2NN 工作机制

思考:NameNode 中的元数据是存储在哪里的?

​ 首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage(镜像文件)。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。

​ 因此,引入 Edits 文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到 Edits 中。这样,一旦 NameNode 节点断电,可以通过 FsImage 和 Edits 的合并,合成元数据

​ 但是,如果长时间添加数据到 Edits 中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行 FsImage 和 Edits 的合并,如果这个操作由NameNode节点完成,又会效率过低。因此,引入一个新的节点SecondaryNamenode,专门用于 FsImage 和 Edits 的合并(引入2nn的原因)。

  • Edits 文件 和 FsImage 文件
[root@hadoop102 current]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/name/current
[root@hadoop102 current]$ ls
edits_0000000000000000001-0000000000000000002  edits_0000000000000000375-0000000000000000376
edits_0000000000000000003-0000000000000000220  edits_0000000000000000377-0000000000000000405
edits_0000000000000000221-0000000000000000315  edits_0000000000000000406-0000000000000000447
edits_0000000000000000316-0000000000000000316  edits_0000000000000000448-0000000000000000460
edits_0000000000000000317-0000000000000000318  edits_0000000000000000461-0000000000000000461
edits_0000000000000000319-0000000000000000320  edits_inprogress_0000000000000000462
edits_0000000000000000321-0000000000000000321  fsimage_0000000000000000460
edits_0000000000000000322-0000000000000000322  fsimage_0000000000000000460.md5
edits_0000000000000000323-0000000000000000324  fsimage_0000000000000000461
edits_0000000000000000325-0000000000000000337  fsimage_0000000000000000461.md5
edits_0000000000000000338-0000000000000000338  seen_txid
edits_0000000000000000339-0000000000000000340  VERSION
edits_0000000000000000341-0000000000000000374

NN 和 2NN 工作机制

1、第一阶段:nn(NameNode) 启动
(1)第一次启动 nn格式化后,创建 Fsimage 和 Edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。

(2)客户端对元数据进行增删改的请求。

(3)nn记录操作日志,更新滚动日志。

(4)nn在内存中对元数据进行增删改。

2、第二阶段:2nn(Secondary NameNode) 工作
(1)2nn询问 nn是否需要 CheckPoint。直接带回 NameNode是否检查结果。
(2)2nn 请求执行 CheckPoint。
(3)NameNode 滚动正在写的 Edits 日志。
(4)将滚动前的编辑日志和镜像文件拷贝到 2nn。
(5)2nn 加载编辑日志和镜像文件到内存,并合并。
(6)生成新的镜像文件 fsimage.chkpoint。
(7)拷贝 fsimage.chkpoint 到 NameNode。
(8)nn将 fsimage.chkpoint 重新命名成 fsimage。

5.2 Fsimage 和 Edits 解析

5.2.1 Fsimage 和 Edits 解析

1、NameNode被格式化之后,将在data/dfs/name/current目录中产生如下文件

[root@hadoop102 current]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/name/current
[root@hadoop102 current]$ ls
edits_0000000000000000001-0000000000000000002
# ...
edits_inprogress_0000000000000000462 # 462
fsimage_0000000000000000460
# ...
fsimage_0000000000000000461.md5
seen_txid
VERSION

(1)Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息。

(2)Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到Edits文件中。

(3)seen_txid文件保存的是一个数字,就是最后一个edits_的数字

[root@hadoop102 current]$ cat seen_txid
462

(4)每次NameNode启动的时候都会将Fsimage文件读入内存,加载Edits里面的更新操作,保证内存中的元数据信息是最新的、同步的,可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并。

5.2.2 oiv 查看 Fsimage 文件

将在data/dfs/name/current目录中

(1)查看 oiv 和 oev 命令

[root@hadoop102 current]$ hdfs
oiv apply the offline fsimage viewer to an fsimage
oev apply the offline edits viewer to an edits file
# Oiv应用脱机的fimage查看器到一个fimage
# Oev将脱机编辑查看器应用于编辑文件

(2) 基本语法

​ hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径

(3)案例实操

​ 将显示的 xml 文件内容拷贝到 Idea 中创建的 xml 文件中,并格式化。

$ hdfs oiv -p XML -i fsimage_0000000000000000468 -o /opt/module/hadoop-3.1.3/fsimage.xml
  • 下载xml文件,进行分析(sz下载,rz上传)
[root@hadoop102 current]$ sz /opt/module/hadoop-3.1.3/fsimage.xml
  • 部分显示结果如下 (用xml文档结构表示文件上下级的关系)
<!-- ... -->
<!-- 根目录 -->
<inode><!-- 根目录id:16385 --><id>16385</id><type>DIRECTORY</type><name></name><mtime>1645255875342</mtime><permission>root:supergroup:0755</permission><nsquota>9223372036854775807</nsquota><dsquota>-1</dsquota>
</inode>
<!-- ... -->
<!-- mydict -->
<inode><!-- mydict的id 16487  --><id>16487</id> <type>DIRECTORY</type><name>mydict</name><mtime>1645245385132</mtime><permission>root:supergroup:0755</permission><nsquota>-1</nsquota><dsquota>-1</dsquota>
</inode><!-- test02.txt -->
<inode><!-- test02.txt 的id 16491  --><id>16491</id><type>FILE</type><name>test02.txt</name><replication>2</replication><mtime>1645242633401</mtime><atime>1645242633212</atime><preferredBlockSize>134217728</preferredBlockSize><permission>root:supergroup:0644</permission><blocks><block><id>1073741877</id><genstamp>1054</genstamp><numBytes>6</numBytes></block></blocks><storagePolicyId>0</storagePolicyId>
</inode>
<!-- ... --><INodeDirectorySection><directory><!-- 根目录id:16385 --><parent>16385</parent><!-- mydict的id 16487  --><child>16487</child><child>16492</child><child>16472</child></directory><!-- mydict的id 16487  --><directory><parent>16487</parent><!-- test02.txt 的id 16491  --><child>16491</child></directory><!-- ... -->
</INodeDirectorySection>

思考

可以看出,Fsimage 中没有记录所对应 DataNode,为什么?

在集群启动后,要求 DataNode 上报数据块信息,并间隔一段时间后再次上报。

5.2.3 oev 查看 Edits 文件

将在data/dfs/name/current目录中

(1)基本语法
hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

(2)案例实操

  • 上传文件
$ hadoop fs -copyFromLocal mytest/test.txt /
[root@hadoop102 current]$ hdfs oev -p XML -i edits_inprogress_0000000000000000472 -o /opt/module/hadoop-3.1.3/edits.xml
[root@hadoop102 current]$ cat /opt/module/hadoop-3.1.3/edits.xml
  • 将显示的 xml 文件内容拷贝到 Idea 中创建的 xml 文件中,并格式化。显示结果如下。
<RECORD><!-- OP_RENAME_OLD 删拷贝操作 --><OPCODE>OP_RENAME_OLD</OPCODE><DATA><TXID>479</TXID><LENGTH>0</LENGTH><SRC>/test.txt._COPYING_</SRC><DST>/test.txt</DST><TIMESTAMP>1645267864345</TIMESTAMP><RPC_CLIENTID>8bf71733-1ca7-4913-9cfd-fb493e14e036</RPC_CLIENTID><RPC_CALLID>8</RPC_CALLID></DATA>
</RECORD>
  • 删除操作对应内容
[root@hadoop102 current]$ hadoop fs -rm /test.txt
Deleted /test.txt
<RECORD><!-- OP_DELETE 删除操作(OP:操作) --><OPCODE>OP_DELETE</OPCODE> <DATA><TXID>480</TXID><LENGTH>0</LENGTH><PATH>/test.txt</PATH><TIMESTAMP>1645268092090</TIMESTAMP><RPC_CLIENTID>1b6ff5d4-91b9-4f62-9dc9-303d1f6f9bf6</RPC_CLIENTID><RPC_CALLID>3</RPC_CALLID></DATA>
</RECORD>

思考:NameNode 如何确定下次开机启动的时候合并哪些 Edits?

5.3 CheckPoint 时间设置

1、通常情况下,SecondaryNameNode 每隔一小时执行一次

[root@hadoop102 hadoop-3.1.3]$ find -name hdfs-default.xml
./share/doc/hadoop/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
  • hdfs-default.xml 文件
<property><name>dfs.namenode.checkpoint.period</name><!--  每隔一小时执行一次 --><value>3600s</value> <description>[翻译]两个定期检查点之间的秒数。如所述,支持多个时间单位后缀(不区分大小写)在dfs.heartbeat.interval。 </description>
</property>

2、一分钟检查一次操作次数,当操作次数达到 1 百万时,SecondaryNameNode 执行一次。

<property><name>dfs.namenode.checkpoint.txns</name><value>1000000</value><description>操作动作次数</description>
</property><property><name>dfs.namenode.checkpoint.check.period</name><value>60s</value><description> 1 分钟检查一次操作次数</description>
</property>

第 6 章 DataNode

6.1 DataNode 工作机制

(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。

(2)DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息

  • DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时;
<property><name>dfs.blockreport.intervalMsec</name><value>21600000</value><description>Determines block reporting interval in milliseconds.</description>
</property>
  • DN 扫描自己节点块信息列表的时间,默认 6 小时
<property><name>dfs.datanode.directoryscan.interval</name><value>21600s</value><description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on the disk.Support multiple time unit suffix(case insensitive), as describedin dfs.heartbeat.interval.</description>
</property>

(3)心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟+30s 没有收到某个 DataNode 的心跳,则认为该节点不可用。

(4)集群运行中可以安全加入和退出一些机器。

6.2 数据完整性

思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),
但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理 DataNode 节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?

DataNode 节点保证数据完整性的方法

(1)当 DataNode 读取 Block 的时候,它会计算 CheckSum。

(2)如果计算后的 CheckSum,与 Block 创建时值不一样,说明 Block 已经损坏。

(3)Client 读取其他 DataNode 上的 Block。

(4)常见的算法 crc(32),md5(128),sha1(160)

(5)DataNode 在其文件创建后周期验证 CheckSum。

crc校验:之前java api 下载的crc 文件就是用于crc校验

@Test
public void testGet() throws IOException{// 执行下载操作// boolean useRawLocalFileSystem 是否开启文件校验 (crc校验)fs.copyToLocalFile(false, new Path("/mydict/test.txt"), new Path("H:/Desktop/Mydict/test.txt"), true);
}

6.3 掉线时限参数设置

需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒,

dfs.heartbeat.interval 的单位为秒。

<property><name>dfs.namenode.heartbeat.recheck-interval</name><value>300000</value>
</property>
<property><name>dfs.heartbeat.interval</name><value>3</value>
</property>

de 的心跳,则认为该节点不可用。

(4)集群运行中可以安全加入和退出一些机器。

6.2 数据完整性

思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),
但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理 DataNode 节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?

DataNode 节点保证数据完整性的方法

(1)当 DataNode 读取 Block 的时候,它会计算 CheckSum。

(2)如果计算后的 CheckSum,与 Block 创建时值不一样,说明 Block 已经损坏。

(3)Client 读取其他 DataNode 上的 Block。

(4)常见的算法 crc(32),md5(128),sha1(160)

(5)DataNode 在其文件创建后周期验证 CheckSum。

crc校验:之前java api 下载的crc 文件就是用于crc校验

@Test
public void testGet() throws IOException{// 执行下载操作// boolean useRawLocalFileSystem 是否开启文件校验 (crc校验)fs.copyToLocalFile(false, new Path("/mydict/test.txt"), new Path("H:/Desktop/Mydict/test.txt"), true);
}

[外链图片转存中…(img-0rrsGMyx-1645274433095)]

6.3 掉线时限参数设置

[外链图片转存中…(img-4GE7VzeX-1645274433096)]

需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒,

dfs.heartbeat.interval 的单位为秒。

<property><name>dfs.namenode.heartbeat.recheck-interval</name><value>300000</value>
</property>
<property><name>dfs.heartbeat.interval</name><value>3</value>
</property>

【大数据】Hadoop (二) HDFS相关推荐

  1. 从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive

    文章目录 概述 Hadoop HDFS HBase 实现原理 Regin服务器原理 HBase安装与使用 NoSQL数据库 MapReduce Hive 概述 IT领域每隔十五年就会迎来一次重大变革: ...

  2. 大数据Hadoop之HDFS和MapReduce_02_01

    Hadoop 主要由HDFS和MapReduce 引擎两部分组成.最底部是HDFS,它存储hadoop集群中所有存储节点上的文件.HDFS 的上一层是MapReduce 引擎,该引擎由JobTrack ...

  3. java基础巩固-宇宙第一AiYWM:为了维持生计,大数据Hadoop之HDFS分布式文件系统(HDFS读写流程、主从集群两种问题“单点故障”及“压力过大内存受限”、HDFS的架构设计)~整起

    Hadoop之HDFS 目录 一.大数据 二.HADOOP 三.HDFS 1.HDFS基本概念 2.HDFS的架构设计 3.HDFS自己对于上面两种数据持久化技术的实现: 4.HDFS读写流程 5.H ...

  4. (超详细)大数据Hadoop之HDFS组件

    一. HDFS简介 1.1 HDFS的概述 在Hadoop生态圈中,HDFS属于底层基础,负责存储文件. 1.2 HDFS产生背景 HDFS全称为Hadoop Distributed File Sys ...

  5. 大数据Hadoop之——总结篇

    文章目录 一.前言 二.Hadoop 1)HDFS常见操作 1.HDFS服务启停命令 2.常见文件操作命令 3.安全模式操作命令 4.数据平衡常见操作命令 5.处理小文件常见操作命令 6.HDFS N ...

  6. 2021年大数据Hadoop(二十九):​​​​​​​关于YARN常用参数设置

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...

  7. 2021年大数据Hadoop(二十七):YARN运行流程

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...

  8. 2021年大数据Hadoop(二十六):YARN三大组件介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn三大组件介绍 ResourceManager No ...

  9. 2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 YARN通俗介绍和基本架构 Yarn通俗介绍 Yarn基本 ...

  10. 2021年大数据Hadoop(二十二):MapReduce的自定义分组

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 MapReduce的自定义分组 需求 分析 实现 第一步: ...

最新文章

  1. mysql物理读和逻辑读,SQL Server中STATISTICS IO物理读和逻辑读的误区
  2. java:volatile,instanceof,strictfp关键字
  3. Bit-Z CEO长顺入围2018中国经济潮流人物
  4. 「Python」pycharm多项目虚拟环境切换
  5. 你多久更新一次简历,决定了你的收入多久能提升
  6. centos6.5安装bugzilla超详细教程
  7. MySQL后初次密码_mysql第一次安装成功后初始化密码操作步骤
  8. 清除90天苹果充值记录_王者荣耀安卓可以转到苹果吗?角色迁移iOS怎么转移到安卓...
  9. 两个特征是独立好还是正相关好_【概率论与数理统计】第5期:随机变量的数字特征...
  10. 视频剪辑软件到底哪个功能强?容易上手并且不要钱的?
  11. expec不管异常 try_java – 如何使用ExpectedException规则在一个测试中测试多个异常?...
  12. ES6新特性总结之解构赋值和字符串模板
  13. net如何在aspx页面中将html页面快速的加入runat,asp.net中在aspx.cs向aspx页面写代码有哪几种方法?...
  14. ESP8266-Arduino编程实例-SHT40温湿度传感器驱动
  15. 6 数据的表现形式常量以及常量的几种类型
  16. 深度学习硬件环境配置
  17. 将格林威治时间转换为北京时间
  18. 解决windows10 时间轴灰色的活动历史记录无法删除的问题
  19. Oracle 报 “ORA-00054 资源正忙, 但指定以 NOWAIT 方式获取资源, 或者超时失效” 问题的解决方法
  20. 安卓讲课笔记2.1Activity概述——上机操作

热门文章

  1. Veritas NetBackup8.1.1客户端安装
  2. 快速保存微信文章中视频的方法
  3. 2022年Spark基础学习笔记
  4. 对接支付宝网站支付接口
  5. 基于EasyNVR网络摄像机无插件直播流媒体服务器实现文字滤镜处理功能
  6. 云币网及KYC【区块链生存训练】
  7. Java+Python 微信公众号自动给女朋友推送专属浪漫早安问候
  8. 微信公众号基本设置服务器设置教程,最新最全的微信公众号开发者模式配置
  9. 四川大学网络教育计算机应用基础,四川大学网络教育学院《计算机应用基础》第一次作业...
  10. 面试心得与总结---BAT、网易、蘑菇街