【Hadoop】Hadoop组件 -之 HDFS组件
一、概述
Hadoop作为分布式存储,分布式计算的大数据生态系统,涵盖了从数据源到数据采集,数据存储,数据计算,数据分析,数据应用的各个场景,学习大数据的架构,了解各个组件对地工作原理和运行机制非常关键。
Hadoop生态系统以下将从以下几个有代表性的组件分布介绍工作原理及运行的机制。
二、HDFS组件
HDFS(Hadoop Distributed, Filesystem)大数据分布式的文件存储系统。
2.1概述
Hadoop作为分布式存储分布式计算的典范,其也经历了三个发展阶段:
第一阶段,集中存,集中算;对于集中算,遇到机器性能的瓶颈。
第二阶段,集中存,分开算;分布式计算,需要将任务做拆分到多台服务器,这时候会需要网络速度的瓶颈;
第三阶段,分开存,分开算;因分布都是采用了廉价的机器进行分布式的存储,将一个大的任务进行拆分,分开计算也解决了集中计算的痛点。
2.2 HDFS 分布式存储系统
背景:在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。
定义:统一管理分布在集群上的文件系统称为分布式文件系统 。
特点:Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统
2.3 应用场景
适合的场景
1)存储非常大的文件:这里非常大指的是几百M,G,或者TB级别,需要高吞吐量,对延时没有要求。
2)采用流式的数据访问方式:即一次写入,多次读取,数据集经常从数据源生成或者拷贝一次,然后再其上做很多分析工作。
3)运行于商业硬件上:Hadoop不需要特别贵的机器,可运行在普通廉价的机器,可以节约成本。
4)需要高容错性;
5)为数据存储提供所需的扩展能力
不适合的场景
2.4组成架构
思考:为什么块的大小不能设置太小,也不能设置太大?
三、HDFS进阶理论
3.1 Hadoop写数据流程
Metadata 元数据,最小的数据单位,这里主要是数据名称,类型,大小,数据副本,数据地址,拥有者信息等。
3.2 Hadoop读数据流程
3.3 NameNode工作机制
3.4 Fsimage和Edits概念
3.5 DataNode工作机制
【Hadoop】Hadoop组件 -之 HDFS组件相关推荐
- Hadoop 1.x:体系结构,主要组件以及HDFS和MapReduce的工作方式
Before reading this post, please go through my previous post at "Introduction to Hadoop" t ...
- (超详细)大数据Hadoop之HDFS组件
一. HDFS简介 1.1 HDFS的概述 在Hadoop生态圈中,HDFS属于底层基础,负责存储文件. 1.2 HDFS产生背景 HDFS全称为Hadoop Distributed File Sys ...
- Zookeeper 教程:Zookeeper作为Hadoop和Hbase的重要组件,为分布式应用程序协调服务
目录 Zookeeper 教程 适用人群 学习前提 Zookeeper 概述 分布式应用 分布式应用的优点 分布式应用的挑战 什么是Apache ZooKeeper? ZooKeeper的好处 Zoo ...
- HADOOP基本操作命令,及其组件端口
全栈工程师开发手册 (作者:栾鹏) 架构系列文章 hadoop的集群部署,可以参考https://blog.csdn.net/luanpeng825485697/article/details/819 ...
- Hadoop如何工作? HDFS案例研究
Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理. 它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储. 库本身不用于依靠硬 ...
- 云小课 | MRS基础入门之HDFS组件介绍
摘要:HDFS是MapReduce服务中的基础文件系统,全称为Hadoop的分布式文件系统(Hadoop Distributed File System),可支持实现大规模数据可靠的分布式读写. 本文 ...
- Hadoop体系结构– YARN,HDFS和MapReduce
Before reading this post, please go through my previous post at "Hadoop 1.x: Architecture and H ...
- 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce
文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...
- Hadoop、分布式文件系统HDFS、YARN、MAPREDUCE
日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 1.1 什么是Hadoop Hadoop名字的由来 作者:Do ...
- Hadoop系列 (三):HDFS详细介绍
文章目录 Hadoop系列文章 HDFS简介 HDFS基本概念 分布式文件系统特点 HDFS设计目标 HDFS架构 HDFS应用场景 HDFS三大组件 NameNode SecondaryNameNo ...
最新文章
- System.Net.Dns.GetHostByAddress(string) 已经过时
- django web 自定义通用权限控制
- 4-算法 与7无关的数最近的提交
- PHP连接mysql8.0出错“SQLSTATE[HY000] [2054] The server requested authentication method unknow........
- 【论文查重】常用论文写作查重润色网站
- 设置小程序video标签宽高比例为9/16
- CPU飙升到100%问题排查
- 风口的猪-中国牛市(小米2016校招)
- 动环监控系统的监控对象有哪些?动环监控系统作用
- Python3网络爬虫(十三):王者荣耀那些事!(Fiddler之手机APP爬取)
- MySQL基础~多表查询分类与SQL92和99语法如何实现内连接和外连接
- 大数据平台docker一键搭建
- ios系统软件迁移到安卓_苹果一键换机到安卓(苹果安卓一键迁移的软件)
- Go语言mgo使用情况
- MVC有哪几种过滤器?
- 英语不好能学编程吗?
- python wechatsougou_python 使用qq登陆搜狗微信搜索
- 网易北京研发中心-网易传媒部门深度学习算法实习生面试总结
- 新东方托福词汇(List 26 ~ List 30)
- 基于WSL搭建ESP8266开发环境
热门文章
- php libiconv close_PHP 5.2.17 编译安装时出现 undefined reference to `libiconv_open’ 错误的解决方法...
- 自定义字体需要css的,CSS 自定义字体
- 天天生鲜项目需求分析——基于Django框架的天天生鲜电商网站项目系列博客(一)...
- WIN7无法卸载掉中文繁体注音输入法
- 快速西门子PLC入门(适合零基础)
- 软考论文写作攻略,让你轻松拿高分!
- mac谷歌浏览器怎么登陆账户_Mac如何安装谷歌浏览器 Mac安装谷歌浏览器的方法...
- (转发)详解汽车UDS诊断协议(二)
- Jaas demo 登陆验证
- 国二计算机资料,计算机国二MS_Office高级应用资料.doc