hadoop可以创建自己的归档文件  即har文件(hadoop archive file)。下面的一个shell命令展示如何创建归档文件:

$ hadoop archive -archiveName geoway_portal.har /user/Administrator/geoway_port
al/(对这个目录下的文件进行归档)                 /tmp/(要保存的位置)
12/11/07 22:04:28 INFO mapred.JobClient: Running job: job_201211070851_0001
12/11/07 22:04:29 INFO mapred.JobClient:  map 0% reduce 0%
12/11/07 22:04:46 INFO mapred.JobClient:  map 42% reduce 0%
12/11/07 22:04:58 INFO mapred.JobClient:  map 60% reduce 0%
12/11/07 22:05:04 INFO mapred.JobClient:  map 100% reduce 0%
12/11/07 22:05:22 INFO mapred.JobClient:  map 100% reduce 100%
12/11/07 22:05:24 INFO mapred.JobClient: Job complete: job_201211070851_0001
12/11/07 22:05:24 INFO mapred.JobClient: Counters: 17
12/11/07 22:05:24 INFO mapred.JobClient:   Job Counters
12/11/07 22:05:24 INFO mapred.JobClient:     Launched reduce tasks=1
12/11/07 22:05:24 INFO mapred.JobClient:     Launched map tasks=1
12/11/07 22:05:24 INFO mapred.JobClient:   FileSystemCounters
12/11/07 22:05:24 INFO mapred.JobClient:     FILE_BYTES_READ=926
12/11/07 22:05:24 INFO mapred.JobClient:     HDFS_BYTES_READ=474439229
12/11/07 22:05:24 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=1402
12/11/07 22:05:24 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=474438973
12/11/07 22:05:24 INFO mapred.JobClient:   Map-Reduce Framework
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce input groups=7
12/11/07 22:05:24 INFO mapred.JobClient:     Combine output records=0
12/11/07 22:05:24 INFO mapred.JobClient:     Map input records=7
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce shuffle bytes=0
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce output records=0
12/11/07 22:05:24 INFO mapred.JobClient:     Spilled Records=14
12/11/07 22:05:24 INFO mapred.JobClient:     Map output bytes=424
12/11/07 22:05:24 INFO mapred.JobClient:     Map input bytes=569
12/11/07 22:05:24 INFO mapred.JobClient:     Combine input records=0
12/11/07 22:05:24 INFO mapred.JobClient:     Map output records=7
12/11/07 22:05:24 INFO mapred.JobClient:     Reduce input records=7

由上面的shell命令执行过程,在进行hadoop har文件归档的时候使用了MapReduce。需要注意的是:在创建archive文件后,源文件不会被更改或者删除。archive作为文件系统暴漏给外界。所以所有的fs shell命令都能在archive上运行,但是需要使用不同的URI。另外注意的是archive是不可改变的。所以重命名、删除和创建都会返回错误。

hadoop archive的URI是:

har://scheme-hostname:port/archivepath/fileinarchive。

如果想查看刚创建的归档文件,可以执行以下命令:

$ hadoop fs -lsr har:///tmp/geoway_portal.har
drw-r--r--   - Administrator supergroup          0 2012-11-07 22:05 /tmp/geoway_
portal.har/user
drw-r--r--   - Administrator supergroup          0 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator
drw-r--r--   - Administrator supergroup          0 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal
-rw-r--r--  10 Administrator supergroup  419438592 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/SDE.DBF
-rw-r--r--  10 Administrator supergroup   54993818 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/likehua.zip
-rw-r--r--  10 Administrator supergroup       6144 2012-11-07 22:05 /tmp/geoway_
portal.har/user/Administrator/geoway_portal/tes2.dmp

转载于:https://www.cnblogs.com/likehua/archive/2012/11/07/2759544.html

创建hadoop 归档文件相关推荐

  1. 在Ubuntu下创建hadoop组和hadoop用户

    一.在Ubuntu下创建hadoop组和hadoop用户 增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户. 1.创建hadoop用户组 2.创 ...

  2. Ubuntu Linux创建Hadoop用户

    # 1. 创建hadoop用户,并使用/bin/bash作为shell sudo useradd -m hadoop -s /bin/bash# 2. 为hadoop用户设置密码,密码输入两次 sud ...

  3. 为什么 Cloudera 要创建 Hadoop 安全组件 Sentry ?

    为什么 Cloudera 要创建 Hadoop 安全组件 Sentry ? 1.  大数据的安全体系 要说清楚这个问题,还得从大数据平台安全体系的四个层次说起:外围安全.数据安全.访问安全以及访问行为 ...

  4. linux tar:谨慎地拒绝创建空归档文件

    压缩:tar -jcv -f filename.tar.bz2要被压缩的文件或目录名称 我刚开始就这样照着书上写出 tar –jcv –f abc.pdf.tar.bz2 然后回车,显示: tar: ...

  5. 创建hadoop用户并配置ssh免密码登录

    [root@node01]# adduser hadoop [root@node01]# passwd hadoop 更改用户 hadoop 的密码 . 新的 密码: 重新输入新的 密码: passw ...

  6. 利用IDEA创建hadoop文件

    来执行单元测试用的依赖:至少4.0.0以上才好用 <dependency><groupId>junit</groupId><artifactId>jun ...

  7. 【Sentry】为什么Cloudera要创建Hadoop安全组件Sentry?

    1. 大数据的安全体系 要说清楚这个问题,还得从大数据平台安全体系的四个层次说起:外围安全.数据安全.访问安全以及访问行为监控:如下图所示: 外围安全技术多指传统意义上提到的网络安全技术,如防火墙,登 ...

  8. 在 Linux 中创建和管理归档文件教程在 Linux 中创建和管理归档文件教程

    本教程会展示如何使用 tar 创建.列出和提取归档中的内容.这三个操作都会使用两个公共选项 -f 和 -v:使用 -f 指定归档文件的名称,使用 -v("冗余")选项使 tar 在 ...

  9. linux如何生成tar文件内容,Linux中的Tar命令创建和提取归档文件

    该tar命令用于通过将一组文件转换为归档文件来创建tar归档文件.它还具有提取tar归档文件,显示归档文件中包含的文件列表,将其他文件添加到现有归档文件以及各种其他类型的操作的功能. Tar最初旨在创 ...

  10. 耗时一个月,整理出这份Hadoop吐血宝典

    本文档参考了关于 Hadoop 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图. 目前企业应用较多的是Hadoop2.x,所以本文是以 ...

最新文章

  1. R语言绘图:28个实用程序包
  2. 探讨.NET Core中实现AES加密和解密以及.NET Core为我们提供了什么方便!
  3. Ubuntu16.04安装NVIDIA驱动+CUDA9.0+cuDNN7.0
  4. 《漫画算法2》源码整理-8 链表中倒数第K个节点元素
  5. SetFormFullScreen()窗体全屏显示
  6. CVS 客户端使用手册
  7. 面向对象和面向过程的优劣
  8. 解决库仑计初始化卡死问题
  9. 选择日期弹框html,JS——点击文本框弹出选择日期表格
  10. Report Machine使用方法
  11. vs2010中svn使用教程_VS2010中使用ankhSVN | 学步园
  12. SICK CLV650-6000固定式扫码枪参数配置
  13. Assembler - Debug
  14. Android蓝牙音乐
  15. imap服务器不支持身份验证方法,POP/IMAP 客户端身份验证失败 | Microsoft Docs
  16. 数据挖掘(2.4)--数据归约和变换
  17. 你身边的博士刚毕业以及稳定下来后的年薪大约是 多少?
  18. grad_cam可视化程序搬运
  19. 世上无难事,只要肯攀登
  20. 在Linux服务器部署Halo博客系统及配置HTTPS

热门文章

  1. vue 打印出来但显示未定义_CAD图形能显示却打印不出来如何解决?
  2. python绘制立体扇形_你不知道的4种方法:python方法绘制扇形
  3. linux rpm安装mysql5.7.*密码策略,访问策略等常见问题
  4. 8.4完成服务(Completion Services)
  5. 一个简单的txt读取与导出
  6. [渝粤教育] 龙岩学院 Web信息系统应用开发 参考 资料
  7. [渝粤教育] 西南科技大学 铁路交通信号控制 在线考试复习资料
  8. 【渝粤题库】 陕西师范大学 202331 证券投资学 作业(专升本)
  9. C++下用什么矩阵运算库比较好
  10. [转]java applet