Hdfs

概念:

Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。

架构设计:

采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

部署方式:

  1. 分布式搭建

~单台服务器上运行多个进程(角色). 一般学习Hadoop时常用这种模式.

~角色NameNode – 掌控全局SecondaryNameNode – 持久化DataNode – 存储数据

  1. 完全分布式搭建

~工作中应该使用的模式, 不同角色运行在不同的服务器上.

~角色1/NameNode2/SecondaryNameNode3/DataNode * 3 (两个副本)

  1. 高可用(High Available)模式

~虽然完全分布式是在实际工作中使用的模式, 但它并不是可靠的. 原因很简单, 就是集群会发生单点故障, 如果namenode节点故障, 挂掉后, 那么这么集群就不可用, 不能被外部访问. 因此, 一般都会对集群做HA.

角色1/NameNode(active)2/NameNode(standby)3/DataNode4/Zookeeper(ZK)

5/JournalNode(JNN)6/ZookeeperFailoverController(ZKFC)

使用方法:

我所认为的使用方法,也就是说整个分布式文件系统的核心——读写流程。

读流程:

写流程:

应用场景:

  1. HDFS不适合大量小文件的存储,
  2. HDFS适用于高吞吐量,而不适合低时间延迟的访问
  3. 流式读取的方式,不适合多用户写入一个文件(一个文件同时只能被一个客户端写)以及任意位置写入(不支持随机写),支持文件尾部apend操作,或者文件的覆盖操作;
  4. HDFS更加适合写入一次,读取多次的应用场景

分布式文件系统之Hdfs是什么?相关推荐

  1. hdfs文件系统和linux文件系统,分布式文件系统HADOOP HDFS与传统文件系统LINUX FS的比较与分析...

    分布式文件系统HADOOP HDFS与传统文件系统LINUX FS的比较与分析 第3 0卷第 4期 2 1 8月 0 0年 苏 州 大 学 学 报(工 科 版) Vo_ O No 4 13 . Au ...

  2. Hadoop分布式文件系统(HDFS)之文件系统(详细版)

    交朋友增体面,不如交朋友益身心 教子弟求显荣,不如教子弟立品行 推荐书目电子版下载 Hadoop必读书目(精选) 本文参考文献包含于上述书籍 HDFS快速入门 Hadoop分布式文件系统(HDFS)快 ...

  3. hdfs读写流程_深度探索Hadoop分布式文件系统(HDFS)数据读取流程

    一.开篇 Hadoop分布式文件系统(HDFS)是Hadoop大数据生态最底层的数据存储设施.因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数 ...

  4. Hadoop 系列 HDFS:分布式文件系统(HDFS文件读写)

    HDFS:分布式文件系统 HDFS文件读写 文件访问权限 针对文件和目录,HDFS有与POSIX非常相似的权限模式. 一共提供三类权限模式:只读权限(r).写入权限(w)和可执行权限(x).读取文件或 ...

  5. java基础巩固-宇宙第一AiYWM:为了维持生计,大数据Hadoop之HDFS分布式文件系统(HDFS读写流程、主从集群两种问题“单点故障”及“压力过大内存受限”、HDFS的架构设计)~整起

    Hadoop之HDFS 目录 一.大数据 二.HADOOP 三.HDFS 1.HDFS基本概念 2.HDFS的架构设计 3.HDFS自己对于上面两种数据持久化技术的实现: 4.HDFS读写流程 5.H ...

  6. 分布式文件系统:HDFS 核心原理

    点击上方蓝色字体,选择"设为星标" 回复"资源"获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据真好 ...

  7. Hadoop分布式文件系统之HDFS

    . 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储.统一管理分布在集群上的文件系统称为分布式文件系统.而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之 ...

  8. 分布式文件系统:HDFS

    学习Hadoop,两个东西肯定是绕不过,MapReduce和HDFS,上一篇博客介绍了MapReduce的处理流程,这一篇博客就来学习一下HDFS. HDFS是一个分布式的文件系统,就是将多台机器的存 ...

  9. 2021年大数据Hadoop(七):HDFS分布式文件系统简介

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS分布式文件系统 ...

最新文章

  1. 首批辉瑞疫苗紧急出仓,传特朗普将「以身试苗」
  2. linux 内核 同步机制
  3. Kubernetes环境下的各种调试方法
  4. Android 关于长按back键退出应用程序的实现
  5. jQuery获取iframe的document对象的方法
  6. 平滑空间滤波器(附C语言实现代码)
  7. 5.文件操作 --- 系统调用
  8. Vue学习之从入门到神经(两万字收藏篇)
  9. msvcr100.dll不存在
  10. VsCode文件屏蔽
  11. 300ETF期权和50ETF期权的区别
  12. python九宫格拼图_利用Python实现朋友圈中的九宫格图片效果
  13. 邮箱登陆不了的解决办法
  14. 大数据部门的作用与大数据工程师的工作
  15. 成都梵羽汇:抖音任务中心如何操作呢?
  16. 腾讯移动版图,社交之外还有什么?
  17. 计算机窗口是什么意思解释,界面(概念用语)_百度百科
  18. 【python量化】将Transformer模型用于股票价格预测
  19. Java基础(一)Java语言概述及入门
  20. 程序员:5人停电去网吧写代码,被当成黑客报警了,网管:想偷我戒指

热门文章

  1. CodeForces - 1400D Zigzags(简单dp)
  2. 2019ICPC(上海) - Color Graph(二分图+状态压缩)
  3. POJ - 3417 Network(树上差分)
  4. POJ - 2449 Remmarguts' Date(第k短路:spfa+A*)
  5. MyEclipse上Git的使用(包含导入和导出)
  6. Pipenv管理Python虚拟环境
  7. cocos2d-x初探学习笔记(18)--Lable
  8. C++线程池原理及创建(转)
  9. 分布式系统概念 | 分布式锁:数据库、Redis、Zookeeper解决方案
  10. Linux 进程信号:信号的概念、生命周期、产生流程、阻塞