HDFS支持fsck命令用以检查各种不一致。fsck用以报告各种文件问题,如block丢失或缺少block等。fack命令用法如下:

bin/hadoop fsck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

<path>        检查的起始目录

-move        将损坏的文件移动到/lost+found下面

-delete        删除损坏的文件

-openforwrite    打印出正在写的文件

-files        打印出所有被检查的文件

-blocks        打印出block报告

-locations    打印出每个block的位置

-racks        打印出datanode的网络拓扑结构

默认情况下,fsck会忽略正在写的文件,使用-openforwrite选项可以汇报这种文件。

下面是用命令行在一个测试集群上执行fsck后的结果:

.......Status: HEALTHY

Total size: 32454532 B

Total dirs: 17

Total files: 7

Total blocks (validated): 7 (avg. block size 4636361 B)

Minimally replicated blocks: 7 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3

Average block replication: 3.7142856

Corrupt blocks: 0

Missing replicas: 0 (0.0 %)

Number of data-nodes: 45

Number of racks: 1

需要注意的是在执行fsck命令行的客户端必选在hadoop-site.xml中配置dfs.http.address项,即namenode的http地址。否则会抛出java.net.ConnectException: Connection refused异常。其原因是fsck是namenode的一个servlet。而fsck命令对应的类DFSck其实是封装了一个http连接,简单的说就是抓取一个网页。而这个网页URL就是dfs.http.address配置项的value后面接上fsck,如http://10.249.65.1:50070/fsck。也就是说用浏览器打开这个网页和命令行执行fsck效果是一样的。

namenode的这个Servlet类名是FsckServlet,它的doGet函数里定义了一个NamenodeFsck对象并执行起fsck()函数。fack()函数递归地从指定path遍历所有的目录和文件,并根据选项确定要打印的内容。如果指定了-move选项,则损坏的文件会被移动到/lost+found目录,如果在根目录下已经存在一个名为lost+found的文件,则move操作会失败并打印warning信息。

对于大的集群来说,对根目录执行fsck操作是很耗时间的而且对namenode压力很大,因此要谨慎使用。通常每天在集群较空闲的时候执行一次以查看数据状况。另外由于任何用户都可以在命令行或浏览器中执行fsck操作,因此可以考虑对该操作进行 权限控制,防止被误操作。

原文地址:http://blog.csdn.net/liangliyin/article/details/5872172

Hadoop的fsck工具相关推荐

  1. hadoop的开发工具_Hadoop开发工具简介

    hadoop的开发工具 几天前, Apache Hadoop开发工具 (又名HDT )发布了. 这些项目旨在将插件引入eclipse中,以简化Hadoop平台上的开发. 该博客旨在概述HDT的一些重要 ...

  2. Hadoop源生实用工具之distcp

    1 概览 DistCp(Distributed Copy)是用于大规模集群内部或者集群之间的高性能拷贝工具. 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成. 它把文件和目录的列 ...

  3. Hadoop冷热数据转换工具Sqoop

    Sqoop是Apache基金下的开源项目,目的是完成关系数据库和Hadoop的转化,实现双向导入. 通常的大型数据系统使用之实现较少,主要原因是因为其在CDH3才开始支持,而且该方式是通过JDBC驱动 ...

  4. Hadoop日志分析工具——White Elephant

    White Elephant 是一个Hadoop日志收集器和展示器,它提供了用户角度的Hadoop集群可视化.White Elephant 是全球最大的职业社交网站Linkedin开发的一套分析Had ...

  5. Apache Ranger——Hadoop ACL控制工具

    本文主要通过ranger在hdfs acl中的应用以及原理介绍一下ranger的使用,另外介绍一下实际使用过程中碰到的问题. 上篇文章回顾:时间服务器-NTP 目前公司内部大多通过数据工场来管理hdf ...

  6. hadoop管理命令——fsck

    fsck工具来检验HDFS中的文件是否正常可用.这个工具可以检测文件块是否在DataNode中丢失,是否低于或高于文件副本. 调用方式:      例如:hadoop fsck /user/admin ...

  7. hadoop fsck命令分析 + 源码解析

    fsck命令分析 HDFS支持fsck命令用以检查各种不一致.fsck用以报告各种文件问题,如block丢失或缺少block等.fsck命令用法如下: $HADOOP_HOME/bin/ hdfs f ...

  8. linux安装tune2fs工具,Linux 开机自检的设置(tune2fs和fsck)

    例子:  设置开机不自检 [root@apexepd ~]# tune2fs  -c -1 -i 0  /dev/sdb1 tune2fs 1.35 (28-Feb-2004) Setting max ...

  9. hadoop日常运维

    hadoop日常运维 @(HADOOP)[hadoop] (一)备份namenode的元数据 namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用.因此应该经常对元数据进行备份,最好 ...

最新文章

  1. 完美解决网站PNG图标在IE6下的透明显示
  2. Java中JDK,JRE和JVM之间的关系
  3. neo4j批量导入数据的两种解决方案
  4. 采用Huffman编码进行数据压缩
  5. 1086 Tree Traversals Again (25 分)【一般 / 建树 树的遍历】
  6. sql下员工工牌(YC0001)的简单实现和一些特殊查询
  7. Caffe将图像数据转换成leveldb/lmdb
  8. 20150504-日报
  9. JAVA对象的值与引用
  10. 第15节 三个败家子(15)—— 总被死后累
  11. 今天开始清理个人计算机资料了
  12. 内存的工作原理及时序介绍
  13. ios获取本地音乐库音乐很详细
  14. Promise、then()、catch()详解
  15. 电脑锁屏壁纸提取方法
  16. BFS和DFS算法原理(通俗易懂版)
  17. [Python]查看Python版本
  18. 在数据库中,视图有什么用?什么时候需要用到视图?
  19. 基于spring boot的毕业设计论文选题申报管理系统设计与实现 毕业论文+项目源码、
  20. 安卓Trustzone有巨大漏洞?降级攻击为你做出解析!

热门文章

  1. 项目管理工具——项目开发者工具
  2. 如何解决收到网监大队信息系统安全等级保护限期整改通知书
  3. ORA-00054 锁表
  4. linux的文件服务器
  5. Paddle 点灯人 之 Tensor
  6. ES6——对yield和yield*的理解
  7. alpine的介绍与使用
  8. LabVIEW图形化TensoRT工具包的安装下载分享
  9. mysql错误42000_mysql5.7 异常ERROR 1055 (42000)
  10. 关系运算符与逻辑运算符