【hadoop】Archive命令使用
Archive命令
hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式,它能够将多个小文件打包成一个后缀为.har文件,这样减少namenode内存使用的同时,仍然允许对文件进行透明的访问。
hadoop Archive目录包含元数据文件( _index 和 _masterindex)和数据文件(part-*),这个_index文件包含了所有文件的名称和他对应part文件的位置。
(1)怎么使用Archive
使用:
hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>
-archiveName 你需要创建的archive的文件名, 例如:tmp.har. 名字应该用*.har后缀。是指定Archive文件的相对路径,例如:-p /user/dss/ /test1 /test2
这里 /user/dss/是/test1和/test2两个相对路径的父路径. 一个是要归档的资源路径,一个是最终归档路径的存放路径。注意:Archive是MapReduce创建了。所以要在map reduce集群环境下运行它。
-r 指示所需的复制因子;如果该可选参数未指定,将使用10的复制因子。
例如:将/user/fish/arch/test1目录下的文件归档到/user/tom/test33文件夹下:hadoop archive -archiveName test.har -p /user/fish arch/test1/ test2
例如:使用通配符,将/user/fish/2015 10,11,12月归档到/user/test33文件夹下:
hadoop archive -archiveName combine.har -p /user/fish2015 1[0-2] /user/test33
例如:不指定归档目录,直接归档parent目录:/user/fish/目录到/user/test33文件夹下:
hadoop archive -archiveName combine.har -p /user/fish /user/test33
例如:归档多个目录,归档/user/fish/目录下的111,222,333目录到/user/test33文件夹下:
hadoop archive -archiveName combine.har -p /user/fish/ 111 222 333 /user/test33
查看Archive文档
查看归档文档
hadoop fs -ls /test/test.har
hadoop dfs -ls /test/test.har
hadoop fs -ls har:test2/test.har/
解压 Archive文档
文件夹内部归档,解压之后会变回archive之前的路径。
例如
/user/dss/test/* 归档成test.har之后解压仍为 /user/dss/test/li 子目录仍存在
串行解压:
hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
并行解压(Mapreduce),使用DistCp:
hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
报错
ERROR tools.DistCp: Exception encountered
java.io.IOException: Invalid path for the Har Filesystem.
表示解压路径不是一个新路径(必须是新路径,否则会报路径无效)
discp 命令
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。
参考:http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html
【hadoop】Archive命令使用相关推荐
- hadoop归档命令archive
hadoop命令:archive hadoop版本:2.6.0 官方链接: https://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/ ...
- hadoop put命令的格式_HDFS常用命令
一.HDFS命令行 Hadoop help命令的使用 1.hadoop -help查询所有Hadoop Shell支持的命令 2.distcp 这是Hadoop下的一个分布式复制程序,可以在不t同的H ...
- Hadoop系列-Hadoop常用命令(五)
Hadoop 常用命令 所有的 Hadoop 命令均由 bin/hadoop 脚本引发.不指定参数运行hadoop脚本会打印所有命令的描述. 用法: hadoop [--config confdir] ...
- 虚拟机集群启动,Hadoop常用命令
虚拟机集群启动,Hadoop常用命令 (一).启动hdfs 1,namenode节点第一次初始化 在namenode安装节点执行命令: hadoop namenode -format 2,单节点启动. ...
- Hadoop—archive
HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存.Hadoop ...
- Hadoop 用户命令详解
Hadoop 集群用户的常用命令 hadoop [–config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] archive 创建一个 ...
- Hadoop应用实战100讲(二)-Hadoop常用命令汇总
前言 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据 ...
- Hadoop Shell命令
Hadoop Shell命令 FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp ...
- hadoop目录命令
下面是经常使用到的,以此记录备忘 1.查看hadoop目录 命令: hadoop fs -ls / 2.创建目录 命令:hadoop fs -mkdir /目录名 3.将文件上传hadoop中(也就是 ...
最新文章
- Schema约束模式实例
- 802.11h halow(Short Beacon, s1g beacon)
- Liunx中环境变量的配置profile,environment,barshrc
- 操作系统实验报告4:Linux 下 x86 汇编语言3
- .NET 6新特性试用 | ArgumentNullException卫语句
- java 并发编程多线程_多线程(一)java并发编程基础知识
- 处理器指令编码可重定义的方法_从零开始设计四位栈处理器(2)——结构与指令集...
- npm install packagename 安装失败的解决办法
- Java Se相关测试题(偏线程、集合)含答案及详解
- YOLO V1,V2, V3的记录
- 什么是Java线程池
- php post 视频教程,PHP教程:POST数据的三种方法
- ASUS TUF Gaming B460M PLUS+RX570+BCM94360CD黑苹果EFI引导文件
- matlab中ode指令,matlab中ode5函数编写.doc
- unity 半透明效果shader
- 企业信息系统架构要点
- 网站出现DNS域名解析错误怎么办?
- 教你几种方法最大限度减轻酒精对你身体的伤害
- matlab中的符号对象与符号运算
- 编写函数求阶乘(完整版)
热门文章
- 《控制工程基础》参考复习题及答案
- windows注册表修改大全
- 考研英语 - word-list-46
- 因为计算机中丢失msvcp100 dll,计算机中丢失MSVCP100.dll怎么解决在线等 爱问知识人...
- 在Windows server2012R2上面解压安装MySQL出现丢失msvcp100.dll(亲测有效)
- c语言课程设计 聊天室,网络聊天室C课程设计
- 【转】Jperf2.0下载及使用方法介绍
- [解决]BCD注册表错误
- 游戏1:HTML5制作网页游戏围住神经猫--createjs
- MaXFlow分子模拟与人工智能平台