2019独角兽企业重金招聘Python工程师标准>>>

一个HDFS集群(简单理解我们搭建的Hadoop集群)即一个namenode与N个datanode的组合。

1. namenode节点-Master节点:

(1)namenode是整个HDFS系统的入口,响应用户请求并实现对文件的管理操作。 
    (2)管理文件划分为多少个block块;管理这些文件块备份多少份,以及保存在哪些设备(datanode)上。 
    (3)监控datanode的健康状况,确保所掌控的从属节点都能正常运转;如有意外,会执行数据从健康节点复制转移到新节点,保证备份数量足够和有效。

2. datanode节点-Slave节点:

(1)响应namenode最终执行用户对文件的读写请求。
    (2)将文件最终通过block文件块的形式保存在硬盘上;根据namenode的要求保存这些文件块的副本。 
    (3)datanode是数据存储节点,也是数据运算节点。也就是说datanode和tasktracker是重叠的,他们执行在同一台机器上。

3. HDFS文件系统的工作流程:

下图简单描述了HDFS文件系统的工作流程。其中并没有说明MapReduce的相关内容,下一章节将做出讲解。图中对secondarynamenode节点的工作做了简单描述,目前略过这一部分。
    图中涉及到多个配置标签,它们关系到集群在实际工作中到底会有多少个datanode节点;到底会将文件分为多少个block文件块;到底会将文件保存多少备份等等。这些也将在之后的MapReduce深入讲解中做出说明。

4. HDFS数据安全机制:

(1)Block文件块:
    一个block块默认保存三份(hdfs-site.xml中dfs.replication的配置),一在NameNode指定DataNode节点;一在与指定节点相同机架的DataNode;一在与指定节点不同机架的DataNode。具体位置是由Hadoop内置算法决定的。
    Block文件块的大小默认为64MB(hdfs-site.xml中dfs.block.size的配置,单位kb),如果文件大于这个数值,将被分块;如果小于等于,将默认按原大小保存。

(2)心跳检测:
    也就是实时检测,jobstracker每隔3秒(hdfs-site.xml中heartbeat.recheck.interval配置,单位s)即检测tasktracker的健康状况;同时tasktracker每个指定时间会上报自身的运行状况。

(3)数据均衡:
    当某个从属节点上的数据超过磁盘空间的既定比例(使用HDFS的balancer命令配置Threshold值),那么部分数据会被转移到其它磁盘使用率较低的从属节点上。这在安装新的从属节点时非常有用。

(4)数据校验:
    当HDFS在磁盘上保存文件块的时候会给其添加CRC32校验信息,当从某从属节点读取这个文件块是会先读取这部分校验信息,如果信息完整有效,会使用这个文件块;否则会从另外两个(如果备份了3份)备份中选取。

(5)安全模式:
    安全模式默认是开启的,并且当系统启动检测全部DataNode节点上Block块的有效性及完成后续操作之后会自动关闭。这段时间HDFS系统内的内容不能修改和删除。在学习阶段,可以从命令行使用

hadoop dfsadmin -safemode leave

命令关闭。

- end

转载于:https://my.oschina.net/vigiles/blog/133559

Hadoop上路_11-HDFS流程演示相关推荐

  1. 2021-12-30大数据学习日志——Hadoop离线阶段——HDFS

    学习目标 理解分布式文件存储的概念与实现 掌握HDFS分块存储.副本机制等特性 学会shell操作HDFS 掌握HDFS读写流程 理解NameNode元数据管理机制 理解SecondaryNameNo ...

  2. Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...

  3. Hadoop分布式文件系统HDFS的工作原理详述

    Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...

  4. Hadoop 系列之 HDFS

    Hadoop 系列之 HDFS 花絮 上一篇文章 Hadoop 系列之 1.0和2.0架构 中,提到了 Google 的三驾马车,关于分布式存储,计算以及列式存储的论文,分别对应开源的 HDFS,Ma ...

  5. 大数据Hadoop系列之HDFS命令讲解

    1. 前言 HDFS命令基本格式:hadoop fs -cmd < args > 2. ls 命令 hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 hadoop ...

  6. 详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive

    通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS.MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心. 通 ...

  7. Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

          纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...

  8. 大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍

    大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 文章目录 大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 1.课前资料 2.课程整体介绍 3.大数据介绍 3.1 什么是大数 ...

  9. hadoop离线day03--Hadoop HDFS

    hadoop离线day03--Hadoop HDFS 目录 hadoop离线day03--Hadoop HDFS 今日内容大纲 Apache HDFS入门 概念 HDFS重要特性 分块存储 副本机制 ...

  10. 五、Hadoop核心组件之HDFS

    上篇博客介绍了Hadoop的本地模式和伪分布式,本篇主要介绍Hadoop的核心组件HDFS,关注专栏<破茧成蝶--大数据篇>查看相关系列的文章~ 目录 一.HDFS的产生背景 二.HDFS ...

最新文章

  1. adb指令没有数据线,在WLAN下也可使用
  2. 《编写可读代码的艺术》读书笔记
  3. VTK:PolyData之CellLocatorVisualization
  4. 在 Android 应用程序中使用 Internet 数据
  5. matlab 第i行到j行,matlab简明教程
  6. Nagle算法延时确认
  7. 不用GAN、VAE,谷歌发明视频生成的扩散模型,实现新SOTA
  8. 连载17:软件体系设计新方向:数学抽象、设计模式、系统架构与方案设计(简化版)(袁晓河著)...
  9. linux 中断服务程序,request_irq() linux注册中断服务
  10. 基于React的贪吃蛇游戏的设计与实现
  11. 廖雪峰java教程 pdf_廖雪峰java学习笔记.pdf
  12. axure8.0注册码
  13. linux下1060显卡驱动安装,ubuntu16.04 联想拯救者y7000笔记本电脑安装1060显卡驱动,及ubuntu16.04更新内核...
  14. excel-countifs和sumifs函数
  15. 持续火爆!2021年上半年软考四川参考率64.2%,云南全年报考规模上升8.4%,浙江报考人数增长56.2%
  16. Wireshark分析网络慢
  17. 【其他系列】走出舒适圈
  18. 利用python实现简单的人工神经网络识别手写数字
  19. (P9)awk:什么是awk,awk简单用法,awk脚本语法,awk执行过程
  20. 转大型分布式网站术语浅析

热门文章

  1. american php frameworks
  2. 017 矩阵中的路径
  3. 关于阿里巴巴iconfont的使用方法
  4. winform代码生成器(三)
  5. code1167 树网的核
  6. -webkit-gradient webkit内核浏览器的Linear Gradients (线性渐变) -Css3演示
  7. java环境json哪些事?
  8. [ASP.NET MVC2 系列] ASP.NET MVC 之如何创建自定义路由约束
  9. linux提示符目录变为~,Linux终端提示符路径长度的修改方法
  10. sql 数组_sql注入中级