Hadoop 的核心（1）—

首先来看看Hadoop 是什么？

Hadoop 是一个开源的大数据框架
Hadoop是一个分布式计算的解决方案
Hadoop = HDFS（分布式文件系统）+ MapReduce（分布式计算）

Hadoop 的两个核心：

HDFS 分布式文件系统：存储是大数据技术的基础
MapReduce 编程模型：分布式计算是大数据应用的解决方案

先来介绍第一个核心 —— HDFS，它有三个特点：

普通的成百上千的机器构成
按TB甚至PB为单位的大量的数据
简单便捷的文件获取

HDFS 的基本概念：

数据块－数据块是抽象块而非整个文件作为存储单元，在 Hadoop1.x 中默认大小是64M，Hadoop2.x 中默认大小是128M，默认每个块备份3份。

由于HDFS是分布式的，也就是主从模式，NameNode 就是主，DataNode 就是从。所以 HDFS 是由一个 NameNode 和多个 DataNode 组成的。

NameNode：

管理文件系统的命名空间，存放文件元数据
维护着文件系统的所有文件和目录，文件与数据块的映射
记录每个文件中各个块所在数据节点的信息（这些信息在 DataNode 启动时会发送给 NameNode）

P.S. 如果 NameNode挂掉了怎么办？（分布式系统存在的问题，后面会讨论这个问题）

DataNode（文件系统的工作节点）：

存储并检索数据块；
向 NameNode 更新所存储块的列表

HDFS 结构图

HDFS 优点：

适合大文件存储，支持 TB、PB 级的数据存储，并有副本策略
可以构建在廉价的机器上，并有一定的容错和恢复机制
支持流式数据访问，一次写入，多次读取，高效

HDFS 缺点：

不适合大量小文件存储
不适合并发写入，不支持文件随即修改
不支持随机读等低延时的访问方式

P.S. Hadoop 本来也不是为这些场景设计的，所以到底用不用 Hadoop 要基于具体的业务场景来考虑。

NameNode 挂掉了怎么办？如何解决单点故障问题？

这是一个很严重的问题，因为我们很难把这些位于不同 DataNode 的数据块重建成文件。Hadoop2 给出了HDFS的高可用 HA 方案：HDFS通常由两个NameNode组成，一个处于 active 状态（主节点），另一个处于 standby 状态（备用节点），两者的数据是时刻保持一致的。当主节点出现问题，备用节点会自动切换，用户不会受到影响，这样就避免了 NameNode 的单点故障问题。当主节点对外提供服务，比如处理来自客户端的 RPC 请求，而备用节点则不对外提供服务，仅同步主节点的状态，以便能够在它失败时快速进行切换。

欢迎关注我的知乎专栏【数据池塘】，专注于分享机器学习、数据挖掘干货：https://zhuanlan.zhihu.com/datapool

⬇️ 扫描下方二维码关注公众号【数据池塘】 ⬇️

回复【算法】，获取最全面的机器学习算法网络图：

Hadoop 的核心（1）—— HDFS相关推荐

Hadoop第五天--HDFS详解
文章部分选自:https://blog.csdn.net/gwd1154978352/article/details/81095592 自己的话:层楼终究误少年,自由早晚乱余生眼泪你别问,joker ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...
初识Hadoop两大核心：HDFS和MapReduce
一.Hadoop是什么? Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元,并把这些单元放到任何集 ...
BigData之Hadoop：Hadoop框架(分布式系统基础架构)的简介(两大核心【HDFS存储和MapReduce计算】)、深入理解、下载、案例应用之详细攻略
BigData之Hadoop:Hadoop框架(分布式系统基础架构)的简介(两大核心[HDFS存储和MapReduce计算]).深入理解.下载.案例应用之详细攻略目录 Hadoop的简介(分布式系统 ...
详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS.MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心. 通 ...
Thinking in BigData（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...
Hadoop的伪分布安装 hadoop的核心思想
Hadoop的伪分布安装 hadoop的安装分为本地模式.伪分布模式.集群模式.本地模式是运行在本地,只负责存储,没有计算功能,本书不讲述.伪分布模式是在一台机器上模拟分布式部署,方便学习和调试.集群 ...
【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce
文章目录导学大数据概述初识Hadoop 概述核心组件 HDFS分布式文件系统资源调度系统YARN MapReduce 优势发展史生态系统发行版本选择企业应用案例第3章分布式文件系 ...
Hadoop、分布式文件系统HDFS、YARN、MAPREDUCE
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 1.1 什么是Hadoop Hadoop名字的由来作者:Do ...

Hadoop 的核心（1）—— HDFS

欢迎关注我的知乎专栏【数据池塘】，专注于分享机器学习、数据挖掘干货：https://zhuanlan.zhihu.com/datapool

⬇️ 扫描下方二维码关注公众号【数据池塘】 ⬇️

Hadoop 的核心（1）—— HDFS相关推荐

最新文章

热门文章