Hadoop上路_11-HDFS流程演示
2019独角兽企业重金招聘Python工程师标准>>>
一个HDFS集群(简单理解我们搭建的Hadoop集群)即一个namenode与N个datanode的组合。
1. namenode节点-Master节点:
(1)namenode是整个HDFS系统的入口,响应用户请求并实现对文件的管理操作。
(2)管理文件划分为多少个block块;管理这些文件块备份多少份,以及保存在哪些设备(datanode)上。
(3)监控datanode的健康状况,确保所掌控的从属节点都能正常运转;如有意外,会执行数据从健康节点复制转移到新节点,保证备份数量足够和有效。
2. datanode节点-Slave节点:
(1)响应namenode最终执行用户对文件的读写请求。
(2)将文件最终通过block文件块的形式保存在硬盘上;根据namenode的要求保存这些文件块的副本。
(3)datanode是数据存储节点,也是数据运算节点。也就是说datanode和tasktracker是重叠的,他们执行在同一台机器上。
3. HDFS文件系统的工作流程:
下图简单描述了HDFS文件系统的工作流程。其中并没有说明MapReduce的相关内容,下一章节将做出讲解。图中对secondarynamenode节点的工作做了简单描述,目前略过这一部分。
图中涉及到多个配置标签,它们关系到集群在实际工作中到底会有多少个datanode节点;到底会将文件分为多少个block文件块;到底会将文件保存多少备份等等。这些也将在之后的MapReduce深入讲解中做出说明。
4. HDFS数据安全机制:
(1)Block文件块:
一个block块默认保存三份(hdfs-site.xml中dfs.replication的配置),一在NameNode指定DataNode节点;一在与指定节点相同机架的DataNode;一在与指定节点不同机架的DataNode。具体位置是由Hadoop内置算法决定的。
Block文件块的大小默认为64MB(hdfs-site.xml中dfs.block.size的配置,单位kb),如果文件大于这个数值,将被分块;如果小于等于,将默认按原大小保存。
(2)心跳检测:
也就是实时检测,jobstracker每隔3秒(hdfs-site.xml中heartbeat.recheck.interval配置,单位s)即检测tasktracker的健康状况;同时tasktracker每个指定时间会上报自身的运行状况。
(3)数据均衡:
当某个从属节点上的数据超过磁盘空间的既定比例(使用HDFS的balancer命令配置Threshold值),那么部分数据会被转移到其它磁盘使用率较低的从属节点上。这在安装新的从属节点时非常有用。
(4)数据校验:
当HDFS在磁盘上保存文件块的时候会给其添加CRC32校验信息,当从某从属节点读取这个文件块是会先读取这部分校验信息,如果信息完整有效,会使用这个文件块;否则会从另外两个(如果备份了3份)备份中选取。
(5)安全模式:
安全模式默认是开启的,并且当系统启动检测全部DataNode节点上Block块的有效性及完成后续操作之后会自动关闭。这段时间HDFS系统内的内容不能修改和删除。在学习阶段,可以从命令行使用
hadoop dfsadmin -safemode leave
命令关闭。
- end
转载于:https://my.oschina.net/vigiles/blog/133559
Hadoop上路_11-HDFS流程演示相关推荐
- 2021-12-30大数据学习日志——Hadoop离线阶段——HDFS
学习目标 理解分布式文件存储的概念与实现 掌握HDFS分块存储.副本机制等特性 学会shell操作HDFS 掌握HDFS读写流程 理解NameNode元数据管理机制 理解SecondaryNameNo ...
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...
- Hadoop分布式文件系统HDFS的工作原理详述
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...
- Hadoop 系列之 HDFS
Hadoop 系列之 HDFS 花絮 上一篇文章 Hadoop 系列之 1.0和2.0架构 中,提到了 Google 的三驾马车,关于分布式存储,计算以及列式存储的论文,分别对应开源的 HDFS,Ma ...
- 大数据Hadoop系列之HDFS命令讲解
1. 前言 HDFS命令基本格式:hadoop fs -cmd < args > 2. ls 命令 hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 hadoop ...
- 详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS.MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心. 通 ...
- Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...
- 大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍
大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 文章目录 大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 1.课前资料 2.课程整体介绍 3.大数据介绍 3.1 什么是大数 ...
- hadoop离线day03--Hadoop HDFS
hadoop离线day03--Hadoop HDFS 目录 hadoop离线day03--Hadoop HDFS 今日内容大纲 Apache HDFS入门 概念 HDFS重要特性 分块存储 副本机制 ...
- 五、Hadoop核心组件之HDFS
上篇博客介绍了Hadoop的本地模式和伪分布式,本篇主要介绍Hadoop的核心组件HDFS,关注专栏<破茧成蝶--大数据篇>查看相关系列的文章~ 目录 一.HDFS的产生背景 二.HDFS ...
最新文章
- adb指令没有数据线,在WLAN下也可使用
- 《编写可读代码的艺术》读书笔记
- VTK:PolyData之CellLocatorVisualization
- 在 Android 应用程序中使用 Internet 数据
- matlab 第i行到j行,matlab简明教程
- Nagle算法延时确认
- 不用GAN、VAE,谷歌发明视频生成的扩散模型,实现新SOTA
- 连载17:软件体系设计新方向:数学抽象、设计模式、系统架构与方案设计(简化版)(袁晓河著)...
- linux 中断服务程序,request_irq() linux注册中断服务
- 基于React的贪吃蛇游戏的设计与实现
- 廖雪峰java教程 pdf_廖雪峰java学习笔记.pdf
- axure8.0注册码
- linux下1060显卡驱动安装,ubuntu16.04 联想拯救者y7000笔记本电脑安装1060显卡驱动,及ubuntu16.04更新内核...
- excel-countifs和sumifs函数
- 持续火爆!2021年上半年软考四川参考率64.2%,云南全年报考规模上升8.4%,浙江报考人数增长56.2%
- Wireshark分析网络慢
- 【其他系列】走出舒适圈
- 利用python实现简单的人工神经网络识别手写数字
- (P9)awk:什么是awk,awk简单用法,awk脚本语法,awk执行过程
- 转大型分布式网站术语浅析
热门文章
- american php frameworks
- 017 矩阵中的路径
- 关于阿里巴巴iconfont的使用方法
- winform代码生成器(三)
- code1167 树网的核
- -webkit-gradient webkit内核浏览器的Linear Gradients (线性渐变) -Css3演示
- java环境json哪些事?
- [ASP.NET MVC2 系列] ASP.NET MVC 之如何创建自定义路由约束
- linux提示符目录变为~,Linux终端提示符路径长度的修改方法
- sql 数组_sql注入中级