分布式文件系统HDFS体系
系列文件列表: http://os.51cto.com/art/201306/399379.htm
1.介绍
hadoop文件系统(HDFS)是一个运行在普通的硬件之上的分布式文件系统,它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统的区别也是很明显的,HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数据访问,它适合大数据集的应用程序,HDFS放开一些POSIX的需求去实现流式地访问文件数据,HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是lucene的一部分。
2.假定和目标
硬件故障
硬件的故障时很正常的,而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片断的服务器组成。实际上它里面有非常巨大的组成部分,每一个组成部分都会频繁地出现故障,这就意味着HDFS里的一些组成部分是总是失效的,因此,故障的检测和自动快速恢复是HDFS一个很核心的结构目标。
流式的数据访问
运行在HDFS之上的应用程序必须流式地访问它们的数据集,它不是典型的运行在常规的文件系统之上的常规程序。HDFS是设计成适合批量处理的,而不是用户交互式的。重点是在数据吞吐量,而不是数据访问的反应时间,POSIX强制的很多硬性需求对很多应用不是必须的,去掉POSIX的很多关键地方的语义以获得更好的数据吞吐率。 大数据集运行在HDFS之上的程序有很大量的数据集。这意味着典型的HDFS文件是GB到TB的大小,所以,HDFS是很好地支持大文件。它应该提供很高的聚合数据带宽,应该一个集群中支持数百个节点,还应该支持一个集群中千万的文件。
简单一致性模型
大部分的HDFS程序对文件操作需要的是一次写入,多次读取的。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题和高吞吐量的数据访问。Map-Reduce程序或者网络爬虫程序都是非常完美地适合这个模型。有一个计划在将来实现文件的附加写入。
移动计算比移动数据更经济
在靠近要被计算的数据所存储的位置来进行计算是最理想的状态,尤其是在数据集特别巨大的时候。这样消除了网络的拥堵,提高了系统的整体吞吐量。这个假定就是将计算离数据更近比将文件移动到程序运行的位置更好。HDFS提供了接口,来让程序将自己移动到离数据存储的位置更近。
轻便的访问异构的软硬件平台
HDFS应该设计成这样的一种方式,就是简单轻便地从一个平台到另外一个平台,这将推动需要大数据集的应用更广泛地采用HDFS作为平台。
名字节点和数据节点
HDFS是一个主从结构的体系,一个HDFS集群是由一个名字节点,它是一个管理文件的命名空间和调节客户端访问文件的主服务器,当然还有的数据节点,一个节点一个,它来管理存储。HDFS暴露文件命名空间和允许用户数据存储成文件。
内部机制是将一个文件分割成一个或多个的块,这些块存储在一组数据节点中。名字节点操作文件命名空间的文件或目录操作,如打开,关闭,重命名,等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统客户的读写请求。
数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指示。
名字节点和数据节点都是软件运行在普通的机器之上,机器典型的都是linux,HDFS是用java来写的,任何支持java的机器都可以运行名字节点或数据节点,利用java语言的超轻便型,很容易将HDFS部署到大范围的机器上。典型的部署时将有一个专门的机器来运行名字节点软件,机群中的其他机器运行一个数据节点实例。体系结构排斥在一个机器上运行多个数据节点的实例,但是实际的部署不会有这种情况。
集群中只有一个名字节点极大地简单化了系统的体系。名字节点是仲裁者和所有HDFS的元数据的仓库。系统设计成用户的实际数据不经过名字节点。
分布式文件系统HDFS体系相关推荐
- 第三章-分布式文件系统HDFS
第三章-分布式文件系统HDFS 文章目录 第三章-分布式文件系统HDFS HDFS简介 HDFS相关概念 HDFS块与组件 名称节点 第二名称节点 数据节点 HDFS体系结构 HDFS存储原理 冗余数 ...
- 大数据学习(3)- 分布式文件系统HDFS
文章目录 目录 1.分布式文件系统 1.1 计算机集群概念 1.2 分布式文件系统结构 2.HDFS简介 2.1 HDFS设计的目标 2.2HDFS的局限性 2.3 块的概念 2.4 HDFS主要组件 ...
- 分布式文件系统HDFS
分布式文件系统HDFS 1.分布式文件系统 计算机集群结构 分布式文件系统的结构 2.HDFS简介 3.HDFS相关概念 HDFS中的块 HDFS主要组件的功能 4.HDFS体系结构 5.HDFS储存 ...
- 3分布式文件系统HDFS
3.1分布式文件系统 3.1.1计算机集群结构 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群. 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的 ...
- Hadoop分布式文件系统--HDFS结构分析
前言 在Hadoop内部,详细实现了很多类的文件系统,当然最最被我们用到的就是他的分布式文件系统HDFS了. 可是本篇文章不会讲HDFS的主从架构等东西,由于这些东西网上和资料书中都讲得非常多了. 所 ...
- 分布式文件系统HDFS解析
分布式文件系统HDFS解析 设计目标 Namenode 和 Datanode HDFS HA HDFS Federation 读写流程 Replication 元数据 副本均衡 元数据磁盘错误 快照 ...
- Hadoop分布式文件系统HDFS的工作原理详述
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...
- 大数据(3)---分布式文件系统HDFS 介绍
分布式文件系统HDFS 介绍 来自https://www.cnblogs.com/liango/p/7136448.html 1.三个部分: 客户端.nameserver(可理解为主控和文件索引,类 ...
- 分布式文件系统-HDFS( HDFS全称是Hadoop Distributed System)
分布式文件系统-HDFS HDFS Hadoop的核心就是HDFS与MapReduce.那么HDFS又是基于GFS的设计理念搞出来的. HDFS全称是Hadoop Distributed System ...
- 分布式文件系统HDFS 学习指南
(HDFS编程实践)大数据技术原理与应用 第三章 分布式文件系统HDFS 学习指南 [该指南为厦门大学林子雨编著的<大数据技术原理与应用>教材配套学习资料]
最新文章
- hdu 4622 Reincarnation SAM模板题
- 这家自动驾驶公司融资2.7亿美元,京东美团齐出手
- Delphi V7.0企业汉化版及注册码
- 将虚拟主机加入到netskills.net域环境_网站建设阿里云虚拟主机、ECS服务器、企业邮箱选择购买指南...
- fileinputstream_从Java中的FileInputStream读取字节
- idea查看ruby代码_Java代码审计入门篇:WebGoat 8(初见)
- 什么是条件组合覆盖_什么是综合评价?高中生报名有哪些好处?
- AndroidStudio_开发工具_调试功能---Android原生开发工作笔记75
- LeetCode93. 复原IP地址
- tcc-transation源码分析与思考
- Kafka集成Kerberos之后如何使用生产者消费者命令
- visio付款流程图_visio流程图软件
- 计算机出现蓝屏怎么恢复,电脑蓝屏怎么解决,小编教你如何恢复正常
- 大话西游各服务器位置,《大话西游Ⅱ》服务器合并一览表
- 北京奥林匹克公园三维场景网络发布应用
- Windows系统电脑常用快捷键
- 四、子弹类的创建,飞机子弹发射与无用子弹的销毁(雷霆战机)
- 2021 ICPC Asia Taipei Regional
- (转)2010年最不能错过的101个网站
- web前端期末大作业 html+css+javascript网页设计实例 企业网站制作 WEB静态网页作业模板 个人主页博客网页代码 dw个人网页
热门文章
- Wavegrove Maji+ for Mac - 饱和压缩器插件
- Mac效率神器Alfred系列教程---剪切板历史记录
- TOONTRACK Electronic Edge EZX(Toontrack打击乐扩展包)
- Ubuntu18.04 上 phpvirtualbox 折腾记(二)
- react-router中进行路由控制
- JavaScript(1)之——this指针
- 1. 初识ZooKeeper。
- 纠结的链接——ln、ln -s、fs.symlink、require
- 点滴积累【JS】---JQuery实现条形统计图,适用于选择题等统计
- 灾难恢复! 关于做过快照的AVHD文件合并成VHD .