[转]HDFS用户指南(中文版)
目的
本文档可以作为使用Hadoop分布式文件系统用户的起点,无论是将HDFS应用在一个Hadoop集群中还是作为一个单独的分布式文件系统使用。HDFS被设计成可以马上在许多环境中工作起来,那么一些HDFS的运行知识肯定能大大地帮助你对一个集群做配置改进和诊断。
下面的列表应该是大多数用户关心的HDFS突出特点。斜体字的术语将在后面详细描述。
1)Hadoop,包括HDFS,非常适合廉价机器上的分布式存储和分布式处理。它是容错的、可伸缩的,并且非常易于扩展。并且,以简单性和适用性著称的Map-Reduce是Hadoop不可或缺的组成部分。
2)HDFS的默认配置适合于大多数安装的应用。通常情况下,只有在一个非常大规模的集群上才需要修改默认配置。
5)Namenode和Datanode都内建了web服务器,可以方便地查看集群的状态
6)HDFS经常性地实现新的特性和改进,下面是HDFS中的一些有用特性的子集:
Rack awareness :当调度任务和分配存储的时候将节点的物理位置考虑进去。
fsck : 诊断文件系统的一个工具,用来查找丢失的文件或者block
Rebalancer :当数据在Datanode间没有均匀分布的时候,用于重新平衡集群的工具
升级和回滚 :当Hadoop软件升级,在升级遇到不可预期的问题的时候,可以回滚到HDFS升级前的状态
二级Namenode :帮助Namenode维持包含了HDFS修改的日志的文件(edits日志文件,下文谈到)大小在限制范围内。
本文档的剩余部分假设你已经搭设并运行了一个至少拥有一个Datanode的HDFS。基于本文档的目的,Namenode和Datanode可以运行在同一台机器上。
'bin/hadoop dfsadmin' 命令支持一些HDFS管理功能的操作。'bin/hadoop dfsadmin -help'可以列出所有当前支持的命令。例如:
- -report : 报告HDFS的基本统计信息。部分信息同时展现在Namenode的web首页上。
- -safemode : 尽管通常并不需要,管理员还是可以通过手工操作进入或者离开safemode状态
- -finalizeUpgrade : 移除上一次升级时集群所做的备份。
2)需要将一个block的副本扩展到其他机架上,防止因为整个机架故障导致的数据丢失。
3)副本之一通常放在同一个机架的另一个节点上,减少跨机架的网络IO
4)将HDFS数据均匀一致地分布在集群中的datanode上。
1)在升级Hadoop前,如果已经存在备份,需要先结束(finalize)它。可以通过'dfsadmin -upgradeProgress status'命令查询集群是否需要执行finalize
3)执行新版本的hadoop,通过添加 -upgrade 选项,例如/bin/start-dfs.sh -upgrade
b)通过rollback选项启动集群,例如bin/start-dfs.sh -rollback
本用户指南可作为使用HDFS很好的一个起点,在本文档持续改进的同时,有一些非常有价值的关于Hadoop和HDFS的文档资料可供参考。下列资料可作为进一步探索的起点:
转载于:https://www.cnblogs.com/napoleon_liu/archive/2011/09/29/2195155.html
[转]HDFS用户指南(中文版)相关推荐
- Hadoop3.2.0 HDFS命令指南
HDFS命令指南 概览 User Commands classpath dfs envvars fetchdt fsck getconf groups httpfs lsSnapshottableDi ...
- HDFS命令指南-03
1.前言 本文写于2018年02月份,以当前HDFS版本2.9.0为主,主要参考为官方文档,其中加入了一些自己的理解,如有不对之处,还请多多指教,感谢! 所有HDFS命令都可以用bin/hdfs脚本调 ...
- flume1.9 用户指南(中文版)
概述 Apache Flume是一个分布式,可靠且可用的系统,用于有效地从许多不同的source收集,聚合和移动大量日志数据到集中式数据存储. Apache Flume的使用不仅限于日志数据聚合.由于 ...
- Java架构师之旅(二十九 附录《MyBatis3 用户指南》中文版)
夜光序言: 岁月波光粼粼,赋予爱与生命,唯有生活不能被他人代替,只会有寂寞相随~~ 正文: MyBatis 3 2010.08.01 翻译的一个版本,虽难比较老了,但是有一些基础还是值得学习,毕竟是 ...
- TINA超级好用的电路仿真软件 中文版 下载 含用户指南入门使用教程
TINA-TI ™ - 免费的SPICE模拟仿真工具 说明,我也不是想要积分,主要是我下载东西人家管我要积分,也就想着分享一些东西换些积分了.希望大家理解,天下苦秦久已. https://downlo ...
- 赛灵思 Xilinx UG908 - Vivado Design Suite 用户指南:编程和调试(中文版) (v2020.2)
文件类型: 用户指南 (User Guides) 本文档旨在记述用于对赛灵思 FPGA 设计进行编程和调试的 Vivado® 工具.FPGA 编程包括从已实现的设计生成比特流文件和将此文件下载至目标器 ...
- Flume 1.9.0用户指南
概述 系统要求 架构 数据流模型 复杂的流程 可靠性 可恢复性 设置 设置 agent 配置单个组件 将各个部分连接在一起 启动 agent 一个简单的例子 在配置文件中使用环境变量 记录原始数据 基 ...
- Android开发指南中文版
Android开发指南中文版 -应用程序框架 iefreer@hotmail.com 2009/9/10 个人主页: http://blog.csdn.net/iefreer 本文是对Androi ...
- Apache Ranger 1.1.0 用户指南
文章目录 关于本文档 概述 登录系统 退出系统 Service Manager (Access Manager) 添加服务 HDFS HBASE Hive YARN KNOX STORM SOLR K ...
最新文章
- 连续数列(总和最大的连续数列)
- c语言程序头文件作用,C语言头文件
- 圈钱跑路 ERC20 Token 合约代码分析
- GetOpenFileName的简单使用实例
- stream进行分组统计
- LeetCode 733. 图像渲染(DFS/BFS)
- 计算机专业410分能上哪些大学,2021年高考410分能报什么学校
- win7纯净版镜像系统安装教程
- 的写法_朋友圈文案标题的写法
- android edittext不可复制_Android中使EditText只读的方法(可恢复编辑状态)
- 补习系列(2)-springboot mime类型处理
- 用JQuery操作元素的style属性
- 大数据_Hbase-原理介绍 安装---Hbase工作笔记0004
- Python实现爬取豆瓣电影|python豆瓣全栈爬虫:电影系列全爬虫系统1.0:(信息,短评,影评,海报)|你想爬的都有
- 基于ZStack构建物联网平台
- Selenium 2自动化测试实战5(模块调用)
- 11001-软件架构设计风格及visio使用
- SQL 2016——新功能
- jmail组件 java,asp空间如何判断jmail组件已经安装?是否支持呢?
- 游戏开发日记(-1):游戏史