【大数据】Hadoop (二) HDFS
课程链接:
尚硅谷大数据Hadoop 3.x(入门搭建+安装调优)_哔哩哔哩_bilibili
(Hadoop到底是干什么用的? - 知乎 (zhihu.com)
资料
Hadoop中文文档 (apache.org)
第 1 章 HDFS 概述
1.1 HDFS 产出背景及定义
1、HDFS 产生背景
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。
2、HDFS 定义
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
3、HDFS 的使用场景:
适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。
1.2 HDFS 优缺点
优点
1、高容错性
数据自动保存多个副本。它通过增加副本的形式,提高容错性。
- 某一个副本丢失以后,它可以自动恢复。
2、适合处理大数据
- 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
- 文件规模:能够处理百万规模以上的文件数量,数量相当之大。
3、可构建在廉价机器上,通过多副本机制,提高可靠性
HDFS缺点
1、不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
2、无法高效的对大量小文件进行存储。
- 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
- 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
3、不支持并发写入、文件随机修改。
- 一个文件只能有一个写,不允许多个线程同时写;
- 仅支持数据append(追加),不支持文件的随机修改。
1.3 HDFS 组成架构
1、NameNode(nn):就是Master,它是一个主管、管理者。
- 管理HDFS的名称空间;
- 配置副本策略;
- 管理数据块(Block)映射信息;
- 处理客户端读写请求。
2、DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。
- 存储实际的数据块;
- 执行数据块的读/写操作。
3、Client:就是客户端。
- 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
- 与NameNode交互,获取文件的位置信息;
- 与DataNode交互,读取或者写入数据;
- Client提供一些命令来管理HDFS,比如NameNode格式化;
- Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;
4、Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
- 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
- 在紧急情况下,可辅助恢复NameNode。
1.4 HDFS 文件块大小(面试重点)
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数 ( dfs.blocksize)来规定,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。
思考:
为什么块的大小不能设置太小,也不能设置太大?
(1)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;
(2)如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。
机器硬盘 100M/s =>设置 块的大小为128M ,固态硬盘 200M/s =>设置 块的大小为156
总结:HDFS块的大小设置主要取决于磁盘传输速率。
第 2 章 HDFS 的 Shell 操作(开发重点)
基本语法
hadoop fs 具体命令
或 hdfs dfs 具体命令
两个是完全相同的。
命令大全
[root@hadoop102 ~]$ hadoop fs
Usage: hadoop fs [generic options][-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum <src> ...]
# ...
常用命令实操
2.1 准备工作
1)启动 Hadoop 集群(方便后续的测试)
[root@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
[root@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
2)-help:输出这个命令参数
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -help rm
3)创建/sanguo 文件夹
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /mytest
2.2上传
1、-moveFromLocal:从本地剪切粘贴到 HDFS
$ hadoop fs -moveFromLocal mytest/test.txt /mytest
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
Hello Hadoop
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -moveFromLocal mytest/test.txt /mytest
2022-02-18 20:42:29,398 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
cat: mytest/test.txt: No such file or directory
2、-copyFromLocal:从本地文件系统中拷贝文件到 HDFS 路径去
$ hadoop fs -copyFromLocal mytest/test.txt /mytest
[root@hadoop102 hadoop-3.1.3]$ echo "Hello Hadoop" >> mytest/test.txt
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm /mytest/test.txt
Deleted /mytest/test.txt
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -copyFromLocal mytest/test.txt /mytest
2022-02-18 20:45:52,754 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
Hello Hadoop
4、-put:等同于 copyFromLocal,生产环境更习惯用 put
$ hadoop fs -put mytest/test.txt /mytest
5、-appendToFile:追加一个文件到已经存在的文件末尾
[root@hadoop102 hadoop-3.1.3]$ echo "一个平凡de人" >> mytest/test2.txt
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -appendToFile mytest/test2.txt /mytest/test.txt
- File contents
Hello Hadoop
一个平凡de人
2.3.3 下载
1、-copyToLocal:从 HDFS 拷贝到本地
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -copyToLocal /mytest/test.txt mytest
2022-02-18 20:52:12,853 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@hadoop102 hadoop-3.1.3]$ cat mytest/test.txt
Hello Hadoop
一个平凡de人
2、-get:等同于 copyToLocal,生产环境更习惯用 get
$ hadoop fs -get /mytest/test.txt mytest
2.4 HDFS 直接操作
1、-ls: 显示目录信息
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -ls /mytest
Found 1 items
-rw-r--r-- 3 root supergroup 31 2022-02-18 20:48 /mytest/test.txt
2、-cat:显示文件内容
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -cat /mytest/test.txt
2022-02-18 20:54:05,064 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
Hello Hadoop
一个平凡de人
3、-chgrp、-chmod、-chown:Linux 文件系统中的用法一样,修改文件所属权限
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -chmod 777 /mytest/test.txt
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -chown root:root /mytest/test.txt
4、-mkdir:创建路径
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /mytest02
5、-cp:从 HDFS 的一个路径拷贝到 HDFS 的另一个路径
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -cp /mytest/test.txt /mytest02
6、-mv:在 HDFS 目录中移动文件
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -mv /mytest02/test.txt /
7、-tail:显示一个文件的末尾 1kb 的数据
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -tail /mytest/test.txt
8、-rm:删除文件或文件夹
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm /mytest/test.txt
9、-rm -r:递归删除目录及目录里面内容
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /mytest
10、-du 统计文件夹的大小信息
[root@hadoop102 ~]$ hadoop fs -du -s -h /mytest
31 93 /mytest
[root@hadoop102 ~]$ hadoop fs -du -h /mytest
31 93 /mytest/test.txt
说明:27 表示文件大小;81 表示 27*3 个副本;/mytest表示查看的目录
11、-setrep:设置 HDFS 中文件的副本数量
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -setrep 4 /mytest/test.txt
这里设置的副本数只是记录在 NameNode 的元数据中,是否真的会有这么多副本,还得看 DataNode 的数量。因为目前只有 3 台设备,最多也就 3 个副本,只有节点数的增加到 10台时,副本数才能达到 10。
第 3 章 HDFS 的 API 操作
windows 远程访问和操作 集群
3.1 客户端环境准备
1、找到资料包路径下的 Windows 依赖文件夹,拷贝 hadoop-3.1.0 到非中文路径。
H:\Web-tool\hadoop-3.1.0\bin
2、配置 HADOOP_HOME 环境变量
%HADOOP_HOME%\bin
3、验证 Hadoop 环境变量是否正常。双击 winutils.exe,如果报如下错误。说明缺少微软运行库(正版系统往往有这个问题)。再资料包里面有对应的微软运行库安装包双击安装即可。
4、在 IDEA 中创建一个 Maven 工程 HdfsClientDemo,并导入相应的依赖坐标+日志添加
<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.30</version></dependency>
</dependencies>
5、在项目的 src/main/resources
目录下,新建一个文件,命名为“log4j.properties”,在文件中填入
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
6、创建包名:com.atguigu.hdfs
7、创建 HdfsClient
类
package com.atguigu.hdfs;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Test;
import java.net.URI;/*** 客户端代码* 1、获得客户端代码* 2、执行修改操作命令* 3、关闭资源* */
public class HdfsClient {@Testpublic void testMkdirs() throws java.io.IOException, java.net.URISyntaxException,InterruptedException {// 连接的集群nn地址URI uri = new URI("hdfs://hadoop102:8020");// 创建一个配置文件Configuration configuration = new Configuration();// 配置windows hadoop 的地址System.setProperty("hadoop.home.dir", "H:/Web-tool/hadoop-3.1.0/");// 配置用户String user = "root";// 1 获取到了客户端对象FileSystem fs = FileSystem.get(uri, configuration, user);// 2 创建目录fs.mkdirs(new Path("/mydict"));// 3 关闭资源fs.close();}
}
- 运行
8、客户端去操作 HDFS 时,是有一个用户身份的。默认情况下,HDFS 客户端 API 会从采 用 Windows 默认用户访问 HDFS,会报权限异常错误。所以在访问 HDFS 时,一定要配置用户。
9、HdfsClient 之后要导入的包
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.yarn.webapp.hamlet2.Hamlet;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.nio.ByteBuffer;
import java.util.Arrays;
3.2 HDFS 的 API 案例实操
3.2.1 创建客户端对象类
HdfsClient 类中
public class HdfsClient {private FileSystem fs;@Beforepublic void init() throws URISyntaxException, IOException, InterruptedException {// 连接的集群nn地址URI uri = new URI("hdfs://hadoop102:8020");// 创建一个配置文件Configuration configuration = new Configuration();// 配置windows hadoop 的地址System.setProperty("hadoop.home.dir", "H:/Web-tool/hadoop-3.1.0/");// 用户String user = "root";// 1 获取到了客户端对象fs = FileSystem.get(uri, configuration, user);}@Afterpublic void close() throws IOException {// 3 关闭资源fs.close();}
}
@Before 运行开始自动执行
@After 运行结束之前自动执行
3.2.1 HDFS 文件上传
HDFS 文件上传
1、 org.apache.hadoop.fs.FileSystem 的 同名方法copyFromLocalFile
不同参数
public void copyFromLocalFile(boolean delSrc, Path src, Path dst) throws IOException {this.copyFromLocalFile(delSrc, true, src, dst);
}public void copyFromLocalFile(boolean delSrc, boolean overwrite, Path[] srcs, Path dst) throws IOException {Configuration conf = this.getConf();FileUtil.copy(getLocal(conf), srcs, this, dst, delSrc, overwrite, conf);
}public void copyFromLocalFile(boolean delSrc, boolean overwrite, Path src, Path dst) throws IOException {Configuration conf = this.getConf();FileUtil.copy(getLocal(conf), src, this, dst, delSrc, overwrite, conf);
}public void copyToLocalFile(Path src, Path dst) throws IOException {this.copyToLocalFile(false, src, dst);
}
2、HdfsClient 类中测试
@Test
public void testPut() throws IOException{// 上传文件fs.copyFromLocalFile(new Path("H:/Desktop/test.txt"),new Path("/mydict"));
}
3、org.apache.hadoop.fs.FileSystem 的 文件移动方法 使用文件上传的方法
public void moveToLocalFile(Path src, Path dst) throws IOException {this.copyToLocalFile(true, src, dst);
}
3.2.3 测试参数优先级
参数优先级 参数优先级排序:
(1)客户端代码中设置的值 >(2)ClassPath 下的用户自定义配置文件 >
(3)然后是服务器的自定义配置(xxx-site.xml)>(4)服务器的默认配置(xxx-default.xml)
配置副本数量
1、将 hdfs-site.xml 拷贝到项目的 resources 资源目录
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>
2、运行
@Test
public void testCopyFromLocalFile() throws IOException{// 上传文件 delSrc:是否删除源文件 overweite:是否覆盖写fs.copyFromLocalFile(false,true,new Path("H:/Desktop/test.txt"),new Path("/mytest"));
}
3、客户端代码中设置的值
// 创建一个配置文件
Configuration configuration = new Configuration();
// 配置副本数量
configuration.set("dfs.replication", "2");
3.2.4 HDFS 文件下载
copyToLocalFile
@Test
public void testGet() throws IOException{// 执行下载操作// boolean delSrc 指是否将原文件删除// Path src 指要下载的文件路径// Path dst 指将文件下载到的路径// boolean useRawLocalFileSystem 是否开启文件校验fs.copyToLocalFile(false, new Path("/mydict/test.txt"), new Path("H:/Desktop/Mydict/test.txt"), true);
}
3.2.5 HDFS 文件更名和移动
// 修改文件名称
fs.rename(new Path("/mydict/test.txt"), new Path("/mydict/test02.txt"));
3.2.6 HDFS 文件详情查看
查看所有文件名称、权限、长度、块信息
@Test
public void testListFiles() throws IOException{// 获取文件详情RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);while (listFiles.hasNext()) {LocatedFileStatus fileStatus = listFiles.next();System.out.println("========" + fileStatus.getPath() + "=========");System.out.println(fileStatus.getPermission());System.out.println(fileStatus.getOwner());System.out.println(fileStatus.getGroup());System.out.println(fileStatus.getLen());System.out.println(fileStatus.getModificationTime());System.out.println(fileStatus.getReplication());System.out.println(fileStatus.getBlockSize());System.out.println(fileStatus.getPath().getName());// 获取块信息BlockLocation[] blockLocations = fileStatus.getBlockLocations();System.out.println(Arrays.toString(blockLocations));}
}
3.2.7 HDFS 文件和文件夹判断
// 判断是文件还是文件夹
FileStatus[] listStatus = fs.listStatus(new Path("/"));
for (FileStatus fileStatus : listStatus) {// 如果是文件if (fileStatus.isFile()) {System.out.println("文件:"+fileStatus.getPath().getName());}else {System.out.println("文件夹:"+fileStatus.getPath().getName());}
}
第 4 章 HDFS 的读写流程(面试重点)
4.1 HDFS 写数据流程
4.1.1 剖析文件写入
写数据流程图
(1)客户端通过 Distributed FileSystem (分布式文件系统)模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。
(2)NameNode 返回是否可以上传。
(3)客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。
(4)NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3。
(5)客户端通过 FSDataOutputStream 模块请求 dn1 上传数据,dn1 收到请求会继续调用dn2,然后 dn2 调用 dn3,将这个通信管道建立完成。
(6)dn1、dn2、dn3 逐级应答客户端。
(7)客户端开始往 dn1 上传第一个 Block(先从磁盘读取数据放到一个本地内存缓存),以 Packet 为单位,dn1 收到一个 Packet 就会传给 dn2,dn2 传给 dn3;dn1 每传一个 packet会放入一个应答队列等待应答。
(8)当一个 Block 传输完成之后,客户端再次请求 NameNode 上传第二个 Block 的服务器。(重复执行 3-7 步)。
4.1.2 网络拓扑-节点距离计算
在 HDFS 写数据的过程中,NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢?
节点距离:两个节点到达最近的共同祖先的距离总和。
设有数据中心 d1 机架 r1 中的节点 n1。该节点可以表示为/d1/r1/n1。利用这种标记,这里给出四种距离描述。
4.1.3 机架感知(副本存储节点选择)
1、机架感知说明
(1)官方说明
Apache Hadoop 3.1.3 – HDFS Architecture
(2)源码说明 Crtl + n 查找 BlockPlacementPolicyDefault,在该类中查找 chooseTargetInOrder 方法。
4.2 HDFS 读数据流程
读数据流程图
(1)客户端通过 DistributedFileSystem 向 NameNode 请求下载文件,NameNode 通过查询元数据,找到文件块所在的 DataNode 地址。
(2)挑选一台 DataNode(就近原则,然后随机)服务器,请求读取数据。
(3)DataNode 开始传输数据给客户端(从磁盘里面读取数据输入流,以 Packet 为单位来做校验)。
(4)客户端以 Packet 为单位接收,先在本地缓存,然后写入目标文件
串行读取不支持并发
第 5 章 NameNode 和 SecondaryNameNode(了解)
5.1 NN 和 2NN 工作机制
思考:NameNode 中的元数据是存储在哪里的?
首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage(镜像文件)。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。
因此,引入 Edits 文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到 Edits 中。这样,一旦 NameNode 节点断电,可以通过 FsImage 和 Edits 的合并,合成元数据。
但是,如果长时间添加数据到 Edits 中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行 FsImage 和 Edits 的合并,如果这个操作由NameNode节点完成,又会效率过低。因此,引入一个新的节点SecondaryNamenode,专门用于 FsImage 和 Edits 的合并(引入2nn的原因)。
- Edits 文件 和 FsImage 文件
[root@hadoop102 current]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/name/current
[root@hadoop102 current]$ ls
edits_0000000000000000001-0000000000000000002 edits_0000000000000000375-0000000000000000376
edits_0000000000000000003-0000000000000000220 edits_0000000000000000377-0000000000000000405
edits_0000000000000000221-0000000000000000315 edits_0000000000000000406-0000000000000000447
edits_0000000000000000316-0000000000000000316 edits_0000000000000000448-0000000000000000460
edits_0000000000000000317-0000000000000000318 edits_0000000000000000461-0000000000000000461
edits_0000000000000000319-0000000000000000320 edits_inprogress_0000000000000000462
edits_0000000000000000321-0000000000000000321 fsimage_0000000000000000460
edits_0000000000000000322-0000000000000000322 fsimage_0000000000000000460.md5
edits_0000000000000000323-0000000000000000324 fsimage_0000000000000000461
edits_0000000000000000325-0000000000000000337 fsimage_0000000000000000461.md5
edits_0000000000000000338-0000000000000000338 seen_txid
edits_0000000000000000339-0000000000000000340 VERSION
edits_0000000000000000341-0000000000000000374
NN 和 2NN 工作机制
1、第一阶段:nn(NameNode) 启动
(1)第一次启动 nn格式化后,创建 Fsimage 和 Edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。
(2)客户端对元数据进行增删改的请求。
(3)nn记录操作日志,更新滚动日志。
(4)nn在内存中对元数据进行增删改。
2、第二阶段:2nn(Secondary NameNode) 工作
(1)2nn询问 nn是否需要 CheckPoint。直接带回 NameNode是否检查结果。
(2)2nn 请求执行 CheckPoint。
(3)NameNode 滚动正在写的 Edits 日志。
(4)将滚动前的编辑日志和镜像文件拷贝到 2nn。
(5)2nn 加载编辑日志和镜像文件到内存,并合并。
(6)生成新的镜像文件 fsimage.chkpoint。
(7)拷贝 fsimage.chkpoint 到 NameNode。
(8)nn将 fsimage.chkpoint 重新命名成 fsimage。
5.2 Fsimage 和 Edits 解析
5.2.1 Fsimage 和 Edits 解析
1、NameNode被格式化之后,将在data/dfs/name/current
目录中产生如下文件
[root@hadoop102 current]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/name/current
[root@hadoop102 current]$ ls
edits_0000000000000000001-0000000000000000002
# ...
edits_inprogress_0000000000000000462 # 462
fsimage_0000000000000000460
# ...
fsimage_0000000000000000461.md5
seen_txid
VERSION
(1)Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息。
(2)Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到Edits文件中。
(3)seen_txid文件保存的是一个数字,就是最后一个edits_的数字
[root@hadoop102 current]$ cat seen_txid
462
(4)每次NameNode启动的时候都会将Fsimage文件读入内存,加载Edits里面的更新操作,保证内存中的元数据信息是最新的、同步的,可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并。
5.2.2 oiv 查看 Fsimage 文件
将在data/dfs/name/current
目录中
(1)查看 oiv 和 oev 命令
[root@hadoop102 current]$ hdfs
oiv apply the offline fsimage viewer to an fsimage
oev apply the offline edits viewer to an edits file
# Oiv应用脱机的fimage查看器到一个fimage
# Oev将脱机编辑查看器应用于编辑文件
(2) 基本语法
hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径
(3)案例实操
将显示的 xml 文件内容拷贝到 Idea 中创建的 xml 文件中,并格式化。
$ hdfs oiv -p XML -i fsimage_0000000000000000468 -o /opt/module/hadoop-3.1.3/fsimage.xml
- 下载xml文件,进行分析(sz下载,rz上传)
[root@hadoop102 current]$ sz /opt/module/hadoop-3.1.3/fsimage.xml
- 部分显示结果如下 (用xml文档结构表示文件上下级的关系)
<!-- ... -->
<!-- 根目录 -->
<inode><!-- 根目录id:16385 --><id>16385</id><type>DIRECTORY</type><name></name><mtime>1645255875342</mtime><permission>root:supergroup:0755</permission><nsquota>9223372036854775807</nsquota><dsquota>-1</dsquota>
</inode>
<!-- ... -->
<!-- mydict -->
<inode><!-- mydict的id 16487 --><id>16487</id> <type>DIRECTORY</type><name>mydict</name><mtime>1645245385132</mtime><permission>root:supergroup:0755</permission><nsquota>-1</nsquota><dsquota>-1</dsquota>
</inode><!-- test02.txt -->
<inode><!-- test02.txt 的id 16491 --><id>16491</id><type>FILE</type><name>test02.txt</name><replication>2</replication><mtime>1645242633401</mtime><atime>1645242633212</atime><preferredBlockSize>134217728</preferredBlockSize><permission>root:supergroup:0644</permission><blocks><block><id>1073741877</id><genstamp>1054</genstamp><numBytes>6</numBytes></block></blocks><storagePolicyId>0</storagePolicyId>
</inode>
<!-- ... --><INodeDirectorySection><directory><!-- 根目录id:16385 --><parent>16385</parent><!-- mydict的id 16487 --><child>16487</child><child>16492</child><child>16472</child></directory><!-- mydict的id 16487 --><directory><parent>16487</parent><!-- test02.txt 的id 16491 --><child>16491</child></directory><!-- ... -->
</INodeDirectorySection>
思考
可以看出,Fsimage 中没有记录块所对应 DataNode,为什么?
在集群启动后,要求 DataNode 上报数据块信息,并间隔一段时间后再次上报。
5.2.3 oev 查看 Edits 文件
将在data/dfs/name/current
目录中
(1)基本语法
hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径
(2)案例实操
- 上传文件
$ hadoop fs -copyFromLocal mytest/test.txt /
[root@hadoop102 current]$ hdfs oev -p XML -i edits_inprogress_0000000000000000472 -o /opt/module/hadoop-3.1.3/edits.xml
[root@hadoop102 current]$ cat /opt/module/hadoop-3.1.3/edits.xml
- 将显示的 xml 文件内容拷贝到 Idea 中创建的 xml 文件中,并格式化。显示结果如下。
<RECORD><!-- OP_RENAME_OLD 删拷贝操作 --><OPCODE>OP_RENAME_OLD</OPCODE><DATA><TXID>479</TXID><LENGTH>0</LENGTH><SRC>/test.txt._COPYING_</SRC><DST>/test.txt</DST><TIMESTAMP>1645267864345</TIMESTAMP><RPC_CLIENTID>8bf71733-1ca7-4913-9cfd-fb493e14e036</RPC_CLIENTID><RPC_CALLID>8</RPC_CALLID></DATA>
</RECORD>
- 删除操作对应内容
[root@hadoop102 current]$ hadoop fs -rm /test.txt
Deleted /test.txt
<RECORD><!-- OP_DELETE 删除操作(OP:操作) --><OPCODE>OP_DELETE</OPCODE> <DATA><TXID>480</TXID><LENGTH>0</LENGTH><PATH>/test.txt</PATH><TIMESTAMP>1645268092090</TIMESTAMP><RPC_CLIENTID>1b6ff5d4-91b9-4f62-9dc9-303d1f6f9bf6</RPC_CLIENTID><RPC_CALLID>3</RPC_CALLID></DATA>
</RECORD>
思考:NameNode 如何确定下次开机启动的时候合并哪些 Edits?
5.3 CheckPoint 时间设置
1、通常情况下,SecondaryNameNode 每隔一小时执行一次
[root@hadoop102 hadoop-3.1.3]$ find -name hdfs-default.xml
./share/doc/hadoop/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
- hdfs-default.xml 文件
<property><name>dfs.namenode.checkpoint.period</name><!-- 每隔一小时执行一次 --><value>3600s</value> <description>[翻译]两个定期检查点之间的秒数。如所述,支持多个时间单位后缀(不区分大小写)在dfs.heartbeat.interval。 </description>
</property>
2、一分钟检查一次操作次数,当操作次数达到 1 百万时,SecondaryNameNode 执行一次。
<property><name>dfs.namenode.checkpoint.txns</name><value>1000000</value><description>操作动作次数</description>
</property><property><name>dfs.namenode.checkpoint.check.period</name><value>60s</value><description> 1 分钟检查一次操作次数</description>
</property>
第 6 章 DataNode
6.1 DataNode 工作机制
(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。
(2)DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息。
- DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时;
<property><name>dfs.blockreport.intervalMsec</name><value>21600000</value><description>Determines block reporting interval in milliseconds.</description>
</property>
- DN 扫描自己节点块信息列表的时间,默认 6 小时
<property><name>dfs.datanode.directoryscan.interval</name><value>21600s</value><description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on the disk.Support multiple time unit suffix(case insensitive), as describedin dfs.heartbeat.interval.</description>
</property>
(3)心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟+30s 没有收到某个 DataNode 的心跳,则认为该节点不可用。
(4)集群运行中可以安全加入和退出一些机器。
6.2 数据完整性
思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),
但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理 DataNode 节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?
DataNode 节点保证数据完整性的方法
(1)当 DataNode 读取 Block 的时候,它会计算 CheckSum。
(2)如果计算后的 CheckSum,与 Block 创建时值不一样,说明 Block 已经损坏。
(3)Client 读取其他 DataNode 上的 Block。
(4)常见的算法 crc(32),md5(128),sha1(160)
(5)DataNode 在其文件创建后周期验证 CheckSum。
crc校验:之前java api 下载的crc 文件就是用于crc校验
@Test
public void testGet() throws IOException{// 执行下载操作// boolean useRawLocalFileSystem 是否开启文件校验 (crc校验)fs.copyToLocalFile(false, new Path("/mydict/test.txt"), new Path("H:/Desktop/Mydict/test.txt"), true);
}
6.3 掉线时限参数设置
需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒,
dfs.heartbeat.interval 的单位为秒。
<property><name>dfs.namenode.heartbeat.recheck-interval</name><value>300000</value>
</property>
<property><name>dfs.heartbeat.interval</name><value>3</value>
</property>
de 的心跳,则认为该节点不可用。
(4)集群运行中可以安全加入和退出一些机器。
6.2 数据完整性
思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),
但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理 DataNode 节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?
DataNode 节点保证数据完整性的方法
(1)当 DataNode 读取 Block 的时候,它会计算 CheckSum。
(2)如果计算后的 CheckSum,与 Block 创建时值不一样,说明 Block 已经损坏。
(3)Client 读取其他 DataNode 上的 Block。
(4)常见的算法 crc(32),md5(128),sha1(160)
(5)DataNode 在其文件创建后周期验证 CheckSum。
crc校验:之前java api 下载的crc 文件就是用于crc校验
@Test
public void testGet() throws IOException{// 执行下载操作// boolean useRawLocalFileSystem 是否开启文件校验 (crc校验)fs.copyToLocalFile(false, new Path("/mydict/test.txt"), new Path("H:/Desktop/Mydict/test.txt"), true);
}
[外链图片转存中…(img-0rrsGMyx-1645274433095)]
6.3 掉线时限参数设置
[外链图片转存中…(img-4GE7VzeX-1645274433096)]
需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒,
dfs.heartbeat.interval 的单位为秒。
<property><name>dfs.namenode.heartbeat.recheck-interval</name><value>300000</value>
</property>
<property><name>dfs.heartbeat.interval</name><value>3</value>
</property>
【大数据】Hadoop (二) HDFS相关推荐
- 从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive
文章目录 概述 Hadoop HDFS HBase 实现原理 Regin服务器原理 HBase安装与使用 NoSQL数据库 MapReduce Hive 概述 IT领域每隔十五年就会迎来一次重大变革: ...
- 大数据Hadoop之HDFS和MapReduce_02_01
Hadoop 主要由HDFS和MapReduce 引擎两部分组成.最底部是HDFS,它存储hadoop集群中所有存储节点上的文件.HDFS 的上一层是MapReduce 引擎,该引擎由JobTrack ...
- java基础巩固-宇宙第一AiYWM:为了维持生计,大数据Hadoop之HDFS分布式文件系统(HDFS读写流程、主从集群两种问题“单点故障”及“压力过大内存受限”、HDFS的架构设计)~整起
Hadoop之HDFS 目录 一.大数据 二.HADOOP 三.HDFS 1.HDFS基本概念 2.HDFS的架构设计 3.HDFS自己对于上面两种数据持久化技术的实现: 4.HDFS读写流程 5.H ...
- (超详细)大数据Hadoop之HDFS组件
一. HDFS简介 1.1 HDFS的概述 在Hadoop生态圈中,HDFS属于底层基础,负责存储文件. 1.2 HDFS产生背景 HDFS全称为Hadoop Distributed File Sys ...
- 大数据Hadoop之——总结篇
文章目录 一.前言 二.Hadoop 1)HDFS常见操作 1.HDFS服务启停命令 2.常见文件操作命令 3.安全模式操作命令 4.数据平衡常见操作命令 5.处理小文件常见操作命令 6.HDFS N ...
- 2021年大数据Hadoop(二十九):关于YARN常用参数设置
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...
- 2021年大数据Hadoop(二十七):YARN运行流程
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...
- 2021年大数据Hadoop(二十六):YARN三大组件介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn三大组件介绍 ResourceManager No ...
- 2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 YARN通俗介绍和基本架构 Yarn通俗介绍 Yarn基本 ...
- 2021年大数据Hadoop(二十二):MapReduce的自定义分组
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 MapReduce的自定义分组 需求 分析 实现 第一步: ...
最新文章
- mysql物理读和逻辑读,SQL Server中STATISTICS IO物理读和逻辑读的误区
- java:volatile,instanceof,strictfp关键字
- Bit-Z CEO长顺入围2018中国经济潮流人物
- 「Python」pycharm多项目虚拟环境切换
- 你多久更新一次简历,决定了你的收入多久能提升
- centos6.5安装bugzilla超详细教程
- MySQL后初次密码_mysql第一次安装成功后初始化密码操作步骤
- 清除90天苹果充值记录_王者荣耀安卓可以转到苹果吗?角色迁移iOS怎么转移到安卓...
- 两个特征是独立好还是正相关好_【概率论与数理统计】第5期:随机变量的数字特征...
- 视频剪辑软件到底哪个功能强?容易上手并且不要钱的?
- expec不管异常 try_java – 如何使用ExpectedException规则在一个测试中测试多个异常?...
- ES6新特性总结之解构赋值和字符串模板
- net如何在aspx页面中将html页面快速的加入runat,asp.net中在aspx.cs向aspx页面写代码有哪几种方法?...
- ESP8266-Arduino编程实例-SHT40温湿度传感器驱动
- 6 数据的表现形式常量以及常量的几种类型
- 深度学习硬件环境配置
- 将格林威治时间转换为北京时间
- 解决windows10 时间轴灰色的活动历史记录无法删除的问题
- Oracle 报 “ORA-00054 资源正忙, 但指定以 NOWAIT 方式获取资源, 或者超时失效” 问题的解决方法
- 安卓讲课笔记2.1Activity概述——上机操作
热门文章
- Veritas NetBackup8.1.1客户端安装
- 快速保存微信文章中视频的方法
- 2022年Spark基础学习笔记
- 对接支付宝网站支付接口
- 基于EasyNVR网络摄像机无插件直播流媒体服务器实现文字滤镜处理功能
- 云币网及KYC【区块链生存训练】
- Java+Python 微信公众号自动给女朋友推送专属浪漫早安问候
- 微信公众号基本设置服务器设置教程,最新最全的微信公众号开发者模式配置
- 四川大学网络教育计算机应用基础,四川大学网络教育学院《计算机应用基础》第一次作业...
- 面试心得与总结---BAT、网易、蘑菇街