Hadoop-HDFS总结(五)
DataNode工作机制
NameNode & DataNode工作机制
1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。
2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。
3)心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个datanode的心跳,则认为该节点不可用。
4)集群运行中可以安全加入和退出一些机器
数据完整性
1)当DataNode读取block的时候,它会计算checksum校验和
2)如果计算后的checksum,与block创建时值不一样,说明block已经损坏。
3)client读取其他DataNode上的block.
4)datanode在其文件创建后周期验证checksum校验和
掉线时限参数设置
datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:
timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval。
而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分钟,dfs.heartbeat.interval默认为3秒。
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒。
<property><name>dfs.namenode.heartbeat.recheck-interval</name><value>300000</value>
</property>
<property><name> dfs.heartbeat.interval </name><value>3</value>
</property>
DataNode的目录结构
和namenode不同的是,datanode的存储目录是初始阶段自动创建的,不需要额外格式化。
- 在/opt/module/hadoop-2.8.4/data/dfs/data/current这个目录下查看版本号
[dingshiqi@bigdata111 current]$ cat VERSION storageID=DS-1b998a1d-71a3-43d5-82dc-c0ff3294921bclusterID=CID-1f2bf8d1-5ad2-4202-af1c-6713ab381175cTime=0datanodeUuid=970b2daf-63b8-4e17-a514-d81741392165storageType=DATA_NODElayoutVersion=-56
具体解释
(1)storageID:存储id号
(2)clusterID集群id,全局唯一
(3)cTime属性标记了datanode存储系统的创建时间,对于刚刚格式化的存储系统,这个属性为0;但是在文 件系统升级之后,该值会更新到新的时间戳。
(4)datanodeUuid:datanode的唯一识别码
(5)storageType:存储类型
(6)layoutVersion是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。
在/opt/module/hadoop-2.8.4/data/dfs/data/current/BP-97847618-192.168.10.102-1493726072779/current这个目录下查看该数据块的版本号
[dingshiqi@bigdata111 current]$ cat VERSION #Mon May 08 16:30:19 CST 2017namespaceID=1933630176cTime=0blockpoolID=BP-97847618-192.168.10.102-1493726072779layoutVersion=-56
具体解释
1)namespaceID:是datanode首次访问namenode的时候从namenode处获取的storageID对每个datanode来说是唯一的(但对于单个datanode中所有存储目录来说则是相同的),namenode可用这个属性来区分不同datanode。(2)cTime属性标记了datanode存储系统的创建时间,对于刚刚格式化的存储系统,这个属性为0;但是在文件系统升级之后,该值会更新到新的时间戳。(3)blockpoolID:一个block pool id标识一个block pool,并且是跨集群的全局唯一。当一个新的Namespace被创建的时候(format过程的一部分)会创建并持久化一个唯一ID。在创建过程构建全局唯一的
BlockPoolID比人为的配置更可靠一些。NN将BlockPoolID持久化到磁盘中,在后续的启动过程中,会再次load并使用。(4)layoutVersion是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。
DataNode多目录配置
datanode也可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本。
具体配置如下:
<property><name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop.tmp.dir}/dfs/data2</value>
</property>
HDFS其他功能
集群间数据拷贝
- scp实现两个远程主机之间的文件复制
- scp -r hello.txt root@bigdata111:/user/itstar/hello.txt // 推 push
scp -r root@bigdata112:/user/itstar/hello.txt hello.txt // 拉 pull
scp -r root@bigdata112:/opt/module/hadoop-2.8.4/LICENSE.txt root@bigdata113:/opt/module/hadoop-2.8.4/LICENSE.txt
//是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
采用discp命令实现两个hadoop集群之间的递归数据复制(注:不用设置其他,直接写IP)
bin/hadoop distcp hdfs://192.168.1.51:9000/LICENSE.txt hdfs://192.168.1.111:9000/HAHA
Hadoop(不适合存储小文件)存档
理论概述
每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB。
Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行透明的访问。具体说来,Hadoop存档文件可以用作MapReduce的输入。
https://www.cnblogs.com/staryea/p/8603112.html
案例实操
需要启动yarn进程
start-yarn.sh
归档文件
归档成一个叫做xxx.har的文件夹,该文件夹下有相应的数据文件。Xx.har目录是一个整体,该目录看成是一个归档文件即可。
- 用法:hadoop archive -archiveName 归档名称 -p 父目录 [-r <复制因子>] 原路径(可以多个) 目的路径
bin/ hadoop archive -archiveName foo.har -p /Andy -r 3 a b c /
查看归档
hadoop fs -lsr /user/my/myhar.har hadoop fs -lsr har:///myhar.har
- - 解归档文件
取消存档:hadoop fs -cp har:/// user/my/myhar.har /* /user/itstar并行解压缩:hadoop distcp har:/foo.har /001
快照管理
快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。
基本语法
hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能)hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用)hdfs dfs -createSnapshot 路径 (功能描述:对目录创建快照)hdfs dfs -createSnapshot 路径 名称 (功能描述:指定名称创建快照)hdfs dfs -renameSnapshot 路径 旧名称 新名称 (功能描述:重命名快照)hdfs lsSnapshottableDir (功能描述:列出当前用户所有已快照目录)hdfs snapshotDiff 路径1 路径2 (功能描述:比较两个快照目录的不同之处)hdfs dfs -deleteSnapshot <path> <snapshotName> (功能描述:删除快照)
案例实操
(1)开启/禁用指定目录的快照功能 hdfs dfsadmin -allowSnapshot /user/itstar/data hdfs dfsadmin -disallowSnapshot /user/itstar/data(2)对目录创建快照 hdfs dfs -createSnapshot /user/itstar/data // 对目录创建快照 用相同数据块 hdfs dfs -lsr /user/itstar/data/.snapshot/(3)指定名称创建快照 hdfs dfs -createSnapshot /user/itstar/data miao170508(4)重命名快照(注:快照是只读的,无法修改名)快照的目录 老快照的名字 新快照的名字 hdfs dfs -renameSnapshot /Andy/ andy bndy 注:路径只是你创建得名字/Andy,不要带后边得/Andy/.snapshot/,不然会出现 renameSnapshot: Modification on a read-only snapshot is disallowed(5)列出当前用户所有可快照目录 hdfs lsSnapshottableDir (6)比较两个快照目录的不同之处快照的名字 之前的快照名字 新快照的名字 hdfs snapshotDiff /user/itstar/data/ plus plus1(7)恢复快照 1.自定义创建一个快照名:hdfs dfs -createSnapshot /HAHA1 miaomiao 2.展示原文件包含内容:Hadoop fs -ls /HAHA1 3.里面有五个文件、删除其中1~2个 4.回复快照:hdfs dfs -cp /HAHA1/.snapshot/miaomiao1 /miaomiao(8)删除快照 hdfs dfs -deleteSnapshot /001名字
回收站
默认回收站
默认值fs.trash.interval=0,0表示禁用回收站,可以设置删除文件的存活时间。
默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。
要求fs.trash.checkpoint.interval<=fs.trash.interval。
- 启用回收站修改core-site.xml,配置垃圾回收时间为1分钟。
<property><name>fs.trash.interval</name><value>1</value> </property>
查看回收站
回收站在集群中的;路径:/user/itstar/.Trash/….
修改访问垃圾回收站用户名称
进入垃圾回收站用户名称,默认是dr.who,修改为itstar用户
#core-site.xml <property><name>hadoop.http.staticuser.user</name><value>itstar</value> </property>
通过程序删除的文件不会经过回收站,需要调用moveToTrash()才进入回收站
Trash trash = New Trash(conf); trash.moveToTrash(path);
恢复回收站数据
hadoop fs -mv /user/itstar/.Trash/Current/user/itstar/input /user/itstar/input
清空回收站
hdfs dfs -expunge
Hadoop-HDFS总结(五)相关推荐
- Hadoop HDFS概念学习系列之熟练掌握HDFS的Shell访问(十五)
调用文件系统(FS)Shell命令应使用 $HADOOP_HOME/bin/hadoop fs *** 的形式!!! 所有的FS Shell命令使用URI路径作为参数. URI格式是scheme:/ ...
- 2021年大数据Hadoop(十五):Hadoop的联邦机制 Federation
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop的联邦机制 Federation 背景概述 F ...
- Python +大数据-hadoop生态-hadoop(三)--Hadoop HDFS
Python +大数据-hadoop生态-hadoop(三)–Hadoop HDFS 今日课程学习目标 理解分布式文件存储的概念与实现 掌握HDFS分块存储.副本机制等特性 学会shell操作HDFS ...
- Hadoop生态圈-hive五种数据格式比较
Hadoop生态圈-hive五种数据格式比较 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.
- Hadoop HDFS文件操作的Java代码
1.创建目录 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.ha ...
- bboss hadoop hdfs大数据抽取工具
bboss大数据抽取工具功能特点如下: 实现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区.按字段分区.分页方式并行批处理抽取db数据到hdfs文件系统中: ...
- org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in receiveBlock for block
Hbase依赖的datanode日志中如果出现如下报错信息:DataXceiverjava.io.EOFException: INFO org.apache.hadoop.hdfs.server.da ...
- JAVA程序连接hadoop HDFS服务报无法连接。
2019独角兽企业重金招聘Python工程师标准>>> 在虚拟机部署hadoop的HDFS系统,在centos系统中敲各种操作命令,对文件读取.上传.删除等都没什么问题.但用JAVA ...
- Linux下Hadoop hdfs Java API使用
0 前言 搞了大约2天时间终于把Linux下面Java API的使用给弄清楚了.做个笔记方便以后参考.环境如下所示 Hadoop:2.5.1 Linux:Ubuntu kylin eclipse:lu ...
- BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略
BigData:大数据开发的简介.核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS.HBase.Hive}+Docker).经典场景应用之详细攻略 BigData:大数 ...
最新文章
- 【kuangbin带你飞】专题六 最小生成树
- 利用正高Dolphin智能广告监测系统做好违法广告监测
- leetcode算法题--爬楼梯
- 错误:不允许有匹配 [xX][mM][lL] 的处理指令目标。
- MM模块几个移动类型之间的区别
- oracle 10g db_file,oracle 10g的db_file_multiblock_read_count参数
- window.event.srcElement在Firefox IE下的兼容问题
- 第三方开源 jar 包推荐
- C语言第七次作业---要死了----
- VS编译NPAPI:error C2733:不允许重载函数 “NP_Initialize的第二个参数
- elasticsearch使用3:配置同义词词库、ik分词器扩展字典和扩展停止词字典
- Juniper SRX240 U盘升级junos
- Rewrite 做二级域名转向
- AI的10个开源工具/框架
- pdf提取其中一页或几页的方法
- 计算机科学专业博士,美国留学:布兰迪斯大学计算机科学博士专业简介
- 恒讯科技讲解:量子云计算是什么?
- 尊敬的用户您好: 您访问的网站被机房安全管理系统拦截,可能是以下原因造成: 1.您
- 测试用例的思路---矿泉水瓶
- k8s :pod has unbound immediate PersistentVolumeClaims