[Hadoop]Hadoop Archives
1. 什么是Hadoop archives?
Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part-*)文件。_index文件包含了档案中的文件的文件名和位置信息。
2. 如何创建archive?
2.1 格式
hadoop archive -archiveName name -p <parent> <src>* <dest>
2.2 参数
(1)由-archiveName选项指定你要创建的archive的名字(name)。比如user_order.har。archive的名字的扩展名应该是*.har
(2)-p参数指定文件存档文件(src)的相对路径,举个例子:
-p /foo/bar a/b/c e/f/g
(3)src 是输入归档文件的目录
(4)dest 是目标目录,创建的archive会保存到该目录下
2.3 Example
hadoop archive -archiveName user_order.har -p /user/xiaosi user/user_active_new_user order/entrance_order test/archive
注意创建archives是一个Map/Reduce job。你应该在map reduce集群上运行这个命令:
xiaosi@yoona:~/opt/hadoop-2.7.3$ hadoop archive -archiveName user_order.har -p /user/xiaosi user/user_active_new_user order/entrance_order test/archive
16/12/26 20:45:36 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id
16/12/26 20:45:36 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
16/12/26 20:45:37 INFO jvm.JvmMetrics: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initialized
16/12/26 20:45:37 INFO jvm.JvmMetrics: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initialized
16/12/26 20:45:37 INFO mapreduce.JobSubmitter: number of splits:1
16/12/26 20:45:37 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local133687258_0001
16/12/26 20:45:37 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
16/12/26 20:45:37 INFO mapreduce.Job: Running job: job_local133687258_0001
...
16/12/26 20:45:38 INFO mapred.LocalJobRunner: reduce task executor complete.
16/12/26 20:45:39 INFO mapreduce.Job: map 100% reduce 100%
16/12/26 20:45:39 INFO mapreduce.Job: Job job_local133687258_0001 completed successfully
16/12/26 20:45:39 INFO mapreduce.Job: Counters: 35
File System Counters
FILE: Number of bytes read=95398
FILE: Number of bytes written=678069
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=974540
HDFS: Number of bytes written=975292
HDFS: Number of read operations=55
HDFS: Number of large read operations=0
HDFS: Number of write operations=11
Map-Reduce Framework
Map input records=8
Map output records=8
Map output bytes=761
Map output materialized bytes=783
Input split bytes=147
Combine input records=0
Combine output records=0
Reduce input groups=8
Reduce shuffle bytes=783
Reduce input records=8
Reduce output records=0
Spilled Records=16
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=0
Total committed heap usage (bytes)=593494016
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=689
File Output Format Counters
Bytes Written=0
3. 如何查看archives中的文件?
archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行,但是要使用不同的URI。 另外,archive是不可改变的。所以重命名,删除和创建都会返回错误。
Hadoop Archives 的URI是
har://scheme-hostname:port/archivepath/fileinarchive
har:///archivepath/fileinarchive
hadoop dfs -ls har:///user/xiaosi/test/archive/user_order.har
xiaosi@yoona:~/opt/hadoop-2.7.3$ hadoop dfs -ls har:///user/xiaosi/test/archive/user_order.har
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
Found 2 items
drwxr-xr-x - xiaosi supergroup 0 2016-12-13 13:39 har:///user/xiaosi/test/archive/user_order.har/order
drwxr-xr-x - xiaosi supergroup 0 2016-12-24 15:51 har:///user/xiaosi/test/archive/user_order.har/user
hadoop dfs -cat har:///user/xiaosi/test/archive/user_order.har/order/entrance_order/entrance_order.txt
xiaosi@yoona:~/opt/hadoop-2.7.3$ hadoop dfs -cat har:///user/xiaosi/test/archive/user_order.har/order/entrance_order/entrance_order.txt
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
{"clickTime":"20161210 14:47:35.000","entrance":"306","actionTime":"20161210 14:48:14.000","orderId":"21014149","businessType":"TRAIN","gid":"1B369BF1D","uid":"8661840271741","vid":"01151","income":105.5,"status":140}
{"clickTime":"20161210 14:47:35.000","entrance":"306","actionTime":"20161210 14:48:18.000","orderId":"121818e46","businessType":"TRAIN","gid":"69BF1D","uid":"86618471741","vid":"01151","income":105.5,"status":140
[Hadoop]Hadoop Archives相关推荐
- Hadoop -- hadoop介绍
Hadoop hadoop介绍 hadoop核心组件 hadoop特性优点 hadoop发展 hadoop介绍 hadoop底层是Java语言实现 是Apache软件基金会的一款开源软件 允许用户使用 ...
- linux如何授权HADOOP,hadoop用户权限管理
在上一篇博文我描述了在单机linux上安装hadoop,网址:http://my.oschina.net/hetiangui/blog/142897,这里我主要描述下hadoop的用户权限管理. 上篇 ...
- 一起学Hadoop——Hadoop的前世今生
Hadoop是什么? Hadoop是一个处理海量数据的开源框架.2002年Nutch项目面世,这是一个爬取网页工具和搜索引擎系统,和其他众多的工具一样,都遇到了在处理海量数据时效率低下,无法存储爬取网 ...
- [Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
- oracle数据如何导入hadoop,hadoop hive 与 Oracle 互相导入数据
#1.在Oracle上建立要处理的表 create table SOURCE_TABLE_NAME as SELECT t.*,rownum as row_num FROM SOURCE_TABLE_ ...
- hadoop(hadoop是什么)
Hadoop是什么 Hadoop是Apache基金会开发的分布式系统基础架构 Hadoop主要被用来解决海量数据的存储和海量数据的分析计算 广义上来说,Hadoop通常是指一个更广泛的概念----Ha ...
- Hadoop学习篇(一)——初识Hadoop Hadoop单机配置
Hadoop学习篇(一) 本文档适用于Hadoop开发学习者使用 说明:如涉及到侵权,请及时联系我,并在第一时间删除文章. Hadoop简介:Hadoop是一个由Apache基金会所开发的分布式系统基 ...
- [ hadoop ] hadoop入门 : 组成架构.环境搭建.运行模式
1 大数据概论 概念: 指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 需求: ...
- Hadoop—Hadoop生态圈
目录 1.HDFS(分布式文件系统) 2.MapReduce(分布式计算框架) 3.Spark(分布式计算框架) 4.Flink(分布式计算框架) 5.Yarn/Mesos(分布式资源管理器) 6.Z ...
最新文章
- linux内核创建节点,Linux内核驱动自动创建设备节点文件
- python考试题库 pcap_使用Python修改PCAP
- Jzoj3931【NOIP2014day1官方数据】联合权值
- 18.Mysql SQL优化
- BugKuCTF 加密 easy_crypto
- windows下关于Objective-C开发环境的配置
- 代码轻视频系列#001
- 虚拟桌面与代理服务器的那些事
- 笨办法学python3 视频打包_正版 笨办法学Python 3 进阶篇+笨办法 学Python 3 视频教学 笨方法学Python核...
- 贪吃蛇的c语言运行程序,用C语言编写贪吃蛇游戏的程序
- 【小工具】仿站小工具的使用及下载
- 自考启示,关于不紧急重要到紧急重要的改变
- Linux uart底层设备驱动详解
- IT名人博客推荐(15个)
- python灰色关联度分析_基于灰色关联度重庆万州区边坡稳定影响因素分析
- 网易有道 ASR 团队斩获 Interspeech 2021 算法竞赛两项冠军
- qiankun加载react子应用报错[import-html-entry] error occurs while executing normal script
- 计算机毕业设计(34)java毕设作品之医院预约挂号系统
- 中国非处方彩色美瞳隐形眼镜行业销售动态与营销前景预测报告2022-2027
- 关于amazon亚马逊SP-API申请注册,amazon亚马逊SPAPI开发人员资料注册,amazon亚马逊Selling Partner API申请注册详细指导
热门文章
- EFR32--如何在EFR32BG22透传中添加AT指令控制
- SpringBoot整合Apollo配置中心快速使用
- VMware Tanzu Kubernetes 发行版部署尝鲜
- 用魔法打败魔法!这件毛衣让摄像头看不到你;两款酷炫的AI写作软件;基于深度学习扩散模型的蛋白质设计;Codon开源Python编译器;基于AI生成连贯的剧本 | ShowMeAI资讯日报
- 使用 ES6 编写更好的 JavaScript Part II:深入探究 [类]
- 知识图谱与推荐系统(DKN)
- Excel·VBA选中列一键计算小计总计
- 醇酰基转移酶基因对猕猴桃酯生物合成的作用
- 大数据开发常用的编程语言有哪些
- 2021年危险化学品经营单位安全管理人员考试及危险化学品经营单位安全管理人员试题及解析