Hadoop HDFS archive 存档

hdfs 存储小文件弊端

每个文件均按块存储，每个块的元数据存储在 NameNode 的内存中，因此hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 NameNode 中的大部分内存。但注意，存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如，一个 1MB 的文件以大小为 128MB 的块存储，使用的是 1MB 的磁盘空间，而不是 128MB。

HAR 文件

Hadoop Archives (HAR files)是在 Hadoop 0.18.0 版本中引入的，它的出现就是为了缓解大量小文件消耗 NameNode 内存的问题。HAR 文件是通过在 HDFS 上构建一个层次化的文件系统来工作。一个 HAR 文件是通过 hadoop 的 archive 命令来创建，而这个命令实际上也是运行了一个 MapReduce 任务来将小文件打包成 HAR 文件。对客户端来说，使用 HAR 文件没有任何影响。所有的原始文件都可见并且可访问的（通过 har://URL）。但在 HDFS 端它内部的文件数减少了。

Hadoop 存档文件或 HAR 文件，是一个更高效的文件存档工具，它将文件存入 HDFS 块，在减少 NameNode 内存使用的同时，允许对文件进行透明的访问。具体说来，Hadoop 存档文件对内还是一个一个独立文件，对 NameNode 而言却是一个整体，减少了 NameNode 的内存。

创建测试数据

本次用的单节点hadoop101，启动集群有点卡。

//本地上传3个jpg
[root@hadoop101 tmp]# pwd
/root/tmp
[root@hadoop101 tmp]# hdfs dfs -mkdir -p /ylj/demo
[root@hadoop101 tmp]# hdfs dfs -put ./1.jpg /ylj/demo/1.jpg
[root@hadoop101 tmp]# hdfs dfs -put ./1.jpg /ylj/demo/2.jpg
[root@hadoop101 tmp]# hdfs dfs -put ./1.jpg /ylj/demo/3.jpg

测试

启动yarn

[root@hadoop101 hadoop-2.7.2]# start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /opt/module/hadoop-2.7.2/logs/yarn-root-resourcemanager-hadoop101.out
localhost: starting nodemanager, logging to /opt/module/hadoop-2.7.2/logs/yarn-root-nodemanager-hadoop101.out

归档文件

使用方法

[root@hadoop101 tmp]# hadoop  archive
archive -archiveName <NAME>.har -p <parent path> [-r <replication factor>]<src>* <dest>Invalid usage.

执行归档

[root@hadoop101 tmp]# hadoop  archive  -archiveName demo.har -p /ylj/demo /ylj/har
19/04/01 01:24:07 INFO client.RMProxy: Connecting to ResourceManager at hadoop101/192.168.1.101:8032
19/04/01 01:24:08 INFO client.RMProxy: Connecting to ResourceManager at hadoop101/192.168.1.101:8032
19/04/01 01:24:08 INFO client.RMProxy: Connecting to ResourceManager at hadoop101/192.168.1.101:8032
19/04/01 01:24:08 INFO mapreduce.JobSubmitter: number of splits:1
19/04/01 01:24:08 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1554052164088_0002
19/04/01 01:24:09 INFO impl.YarnClientImpl: Submitted application application_1554052164088_0002
19/04/01 01:24:09 INFO mapreduce.Job: The url to track the job: http://hadoop101:8088/proxy/application_1554052164088_0002/
19/04/01 01:24:09 INFO mapreduce.Job: Running job: job_1554052164088_0002
19/04/01 01:24:17 INFO mapreduce.Job: Job job_1554052164088_0002 running in uber mode : false
19/04/01 01:24:17 INFO mapreduce.Job:  map 0% reduce 0%
19/04/01 01:24:25 INFO mapreduce.Job:  map 100% reduce 0%
19/04/01 01:24:33 INFO mapreduce.Job:  map 100% reduce 100%
19/04/01 01:24:34 INFO mapreduce.Job: Job job_1554052164088_0002 completed successfully
19/04/01 01:24:35 INFO mapreduce.Job: Counters: 49
....省略一万行....

查看归档

[root@hadoop101 tmp]# hdfs dfs -ls -R /ylj/har/demo.har
-rw-r--r--   1 root supergroup          0 2019-04-01 01:24 /ylj/har/demo.har/_SUCCESS
-rw-r--r--   5 root supergroup        270 2019-04-01 01:24 /ylj/har/demo.har/_index
-rw-r--r--   5 root supergroup         23 2019-04-01 01:24 /ylj/har/demo.har/_masterindex
-rw-r--r--   1 root supergroup     305970 2019-04-01 01:24 /ylj/har/demo.har/part-0
[root@hadoop101 tmp]# hdfs dfs -ls -R har:///ylj/har/demo.har
-rw-r--r--   1 root supergroup     101990 2019-04-01 01:16 har:///ylj/har/demo.har/1.jpg
-rw-r--r--   1 root supergroup     101990 2019-04-01 01:16 har:///ylj/har/demo.har/2.jpg
-rw-r--r--   1 root supergroup     101990 2019-04-01 01:16 har:///ylj/har/demo.har/3.jpg

如果想把归档文件中的内容解析出来，可以使用-cp命令

[root@hadoop101 tmp]# hdfs dfs -mkdir /ylj/demo_har
[root@hadoop101 tmp]# hdfs dfs -cp har:///ylj/har/demo.har/* /ylj/demo_har