Hadoop之HDFS概述


目录

  1. HDFS产生背景
  2. HDFS概念
  3. HDFS优缺点
  4. HDFS组成架构

1. HDFS产生背景

随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。


2. HDFS概念

HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。


3. HDFS优缺点

优点
1)高容错性
(1)数据自动保存多个副本。它通过增加副本的形式,提高容错性;
(2)某一个副本丢失以后,它可以自动恢复。
2)适合大数据处理
(1)数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
(2)文件规模:能够处理百万规模以上的文件数量,数量相当之大。
3)流式数据访问,它能保证数据的一致性。
4)可构建在廉价机器上,通过多副本机制,提高可靠性。

缺点
1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
2)无法高效的对大量小文件进行存储。
(1)存储大量小文件的话,它会占用NameNode大量的内存来存储文件、目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
(2)小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
3)不支持并发写入、文件随机修改。
(1)一个文件只能有一个写,不允许多个线程同时写;
(2)仅支持数据append(追加),不支持文件的随机修改。


4. HDFS组成架构

HDFS组成架构如图

这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。

1)Client:就是客户端。
(1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行存储;
(2)与NameNode交互,获取文件的位置信息;
(3)与DataNode交互,读取或者写入数据;
(4)Client提供一些命令来管理HDFS,比如启动或者关闭HDFS;
(5)Client可以通过一些命令来访问HDFS;

2)NameNode:就是Master,它是一个主管、管理者。
(1)管理HDFS的名称空间;
(2)管理数据块(Block)映射信息;
(3)配置副本策略;
(4)处理客户端读写请求。

3) DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。
(1)存储实际的数据块;
(2)执行数据块的读/写操作。

4) Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
(1)辅助NameNode,分担其工作量;
(2)定期合并Fsimage和Edits,并推送给NameNode;
(3)在紧急情况下,可辅助恢复NameNode。


Hadoop之HDFS概述相关推荐

  1. Hadoop基础--HDFS/Yarn/MapReduce概述

    HDFS概述==> 1. Hadoop优势(4高): 1.高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失: 2.高扩展型: 在 ...

  2. Apache Durid 数据存储(Hadoop概述 安装 HDFS概述 数据存储遇到的问题)

    Apache Durid 数据存储 Apache Durid 数据存储 1. 分布式技术 1.1 为什么需要分布式 1.1.1 计算问题 1.1.2 存储问题 1.2 分布式系统概述 1.3 分布式实 ...

  3. Hadoop HDFS概述

    前言 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储.统一管理分布在集群上的文件系统称为分布式文件系统. HDFS,是Hadoop Distributed File System的简 ...

  4. Hadoop基础-Hdfs各个组件的运行原理介绍

    Hadoop基础-Hdfs各个组件的运行原理介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...

  5. HDFS概述(2)————Block块大小设置

    参考: HDFS概述(4)----HDFS权限 HDFS概述(3)----HDFS Federation HDFS概述(2)----Block块大小设置 HDFS概述(1)----HDFS架构 问题 ...

  6. hadoop关于hdfs详细解答

    HDFS内容 大数据的概念及其特征 Hadoop简介及其生态圈 HDFS的内部组件介绍 HDFS的安装模式介绍 独立模式 伪分布式模式 完全分布式的搭建 HDFS的常用命令 HDFS的设计思想 HDF ...

  7. 03.Hadoop之HDFS

    第1章 HDFS概述 1.1 HDFS产出背景及定义 1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一 ...

  8. 大数据知识梳理(Hadoop、HDFS)(整理中。。。)

    大数据知识梳理(Hadoop.HDFS)(更新中...) 第1讲 大数据概述 1.1 大数据时代 1.2 大数据概念和影响 1.3 大数据的应用 1.4 大数据的关键技术 1.5 大数据与云计算.物联 ...

  9. Hadoop 深入浅出----HDFS(2)

    HDFS 1.HDFS 概述 1.1 HDFS 产出背景及定义 1.1.1 HDFS 产生背景 1.1.2 HDFS 定义 1.2 HDFS 优缺点 1.2.1 优点 1.2.2 缺点 1.3 HDF ...

最新文章

  1. delphi中的函数传参如何传枚举参数_shell脚本的函数介绍使用和工作常用案例。建议收藏...
  2. 博士申请 | 加拿大Mila实验室唐建教授招收深度学习方向博士生和实习生
  3. 关于cocostudio动态添加控件触摸响应无效的学习
  4. Leetcode 77.组合
  5. mysql 10分钟一聚合_SQL-根据DateTime查询多个聚合-MySQL
  6. 【今日CS 视觉论文速览】Wed, 30 Jan 2019
  7. c语言封闭曲线分割平面_餐饮空间设计之平面合理布局
  8. java异常网,Java异常实践事项
  9. 静态页面放图片及居中
  10. python-opencv 帧差法目标检测
  11. 当中国传统文化IP与NFT撞个满怀,能擦出什么火花
  12. STM32学习----ADC(数模转换)
  13. 【QT数字图像处理】(三)QSlider滑块学习
  14. The file contains a character that cannot be represented in the current code page.c1070
  15. 又一个万亿级市场迎来新玩家?抖音内测网络拍卖功能
  16. windows11 第三方 截图工具对比
  17. 达内学员就业率远超名校大学生就业率
  18. spoon各个控件的说明
  19. Applet中签名与未签名代码的混合使用带来的问题
  20. sklearn分层抽样

热门文章

  1. MySQL从库的列类型不一致导致的复制异常问题
  2. Oracle E-Business Suite 12.1.1 Rapid Clone
  3. apache虚拟主机301跳转问题
  4. Java程序员从笨鸟到菜鸟之(九十九)深入java虚拟机(八)开发自己的类加载器...
  5. ASP.NET“.NET研究”下用URLRewriter重写二级域名
  6. Eigrp恶意插入路由和致瘫***测试(四)
  7. CodeForces - 1527E Partition Game(dp+线段树)
  8. c语言的运算符表格,C语言教案(运算符和表格达式).ppt
  9. 编程之美之控制cpu线
  10. PyTorch-训练