目录

大数据入门系列文章

一、概念

二、架构及组件概念

三、读写流程

四、大白话

五、其他

大数据入门系列文章


最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭!

大数据入门系列文章

1.大数据入门-大数据是什么

2.大数据入门-大数据技术概述(一)

3.大数据入门-大数据技术概述(二)

4.大数据入门-三分钟读懂Hadoop

一、概念

HDFS英文全称为:Hadoop Distributed File System,是指被设计成适合运行在通用硬件的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

这里再强调一下几个特点,注意看黑板。

超大文件:可以存放TB到PB级别的数据量

流式访问:一次写入,多次读取。更加关注所有数据集的查询时间。

商用硬件:机器都是普通的机器,可以组合起来一起使用,三个臭皮匠顶个诸葛亮。但是单节点故障会较多,所以要有一种机制和方法来迅速恢复业务。

不适合低延时数据:针对的问题和解决方案是高吞吐,所以不适合低延时数据,当然后面会有专门的低延时架构。所以问题出来了总有方案。不要慌。

不支持任意修改: 系统以读数据为主,支持在文末追加数据,不支持任意修改。

二、架构及组件概念

数据块:默认一个块(block)的大小为128MB(HDFS的块这么大主要是为了最小化寻址开销),要在HDFS中存储的文件可以划分为多个分块,每个分块可以成为一个独立的存储单元。与本地磁盘不同的是,HDFS中小于一个块大小的文件并不会占据整个HDFS数据块。

NameNode:管理整个文件系统的元数据。例如管理元数据,维护维护目录结构、响应客户端请求。

详解说明:NameNode作为管理节点,它负责整个文件系统的命名空间,并且维护着文件系统树和整棵树内所有的文件和目录,这些信息以两个文件的形式(命名空间镜像文件和编辑日志文件)永久存储在NameNode的本地磁盘上。除此之外,同时,NameNode也记录每个文件中各个块所在的数据节点信息,但是不永久存储块的位置信息,因为块的信息可以在系统启动时重新构建。

DataNode:复制管理用户的文件数据块。例如管理用户提交的数据 心跳机制 块报告。

NameNode容错性:NameNode作为管理节点,它的地位是非同寻常的,一旦NameNode宕机,那么所有文件都会丢失,因为NameNode是唯一存储了元数据、文件与数据块之间对应关系的节点,所有文件信息都保存在这里,NameNode毁坏后无法重建文件。

第一种机制是备份那些组成文件系统元数据持久状态的文件,比如:将文件系统的信息写入本地磁盘的同时,也写入一个远程挂载的网络文件系统(NFS),这些写操作实时同步并且保证原子性。
第二种机制是运行一个辅助NameNode,用以保存命名空间镜像的副本,在NameNode发生故障时启用。(也可以使用热备份NameNode代替辅助NameNode)。

心跳机制:维护集群的可用性

NameNode启动的时候,会有一个加载元数据(数据的数据,类似于表的索引)和块报告(DataNode会定时(可以再配置文件中设置,所以一定要时间同步)对块信息进行统计)的过程,NameNode通过心跳机制维护整个集群的可用性。如果块报告上传失败,NameNode不会更新元数据,在块报告的时候就会将其删除掉。

块缓存:数据通常情况下都保存在磁盘,但是对于访问频繁的文件,其对应的数据块可能被显式的缓存到DataNode的内存中,以堆外缓存的方式存在,一些计算任务(比如MapReduce)可以在缓存了数据的DataNode上运行,利用块的缓存优势提高读操作的性能。

高可用性:通过备份NameNode存储的文件信息或者运行辅助NameNode可以防止数据丢失,但是依旧没有保证了系统的高可用性。一旦NameNode发生了单点失效,那么必须能够快速的启动一个拥有文件系统信息副本的新NameNode。

这个就是主NameNode与备份的NameNode之间的交互了。

存放策略:默认的HDFS block放置策略在最小化写开销和最大化数据可靠性、可用性以及总体读取带宽之间进行了一些折中。一般情况下复制因子为3,HDFS的副本放置策略是将第一个副本放在本地节点,将第二个副本放到本地机架上的另外一个节点而将第三个副本放到不同机架上的节点。这种方式减少了机架间的写流量,从而提高了写的性能。机架故障的几率远小于节点故障。这种方式并不影响数据可靠性和可用性的限制,并且它确实减少了读操作的网络聚合带宽,因为文件块仅存在两个不同的机架, 而不是三个。文件的副本不是均匀地分布在机架当中,1/3在同一个节点上,1/3副本在同一个机架上,另外1/3均匀地分布在其他机架上。这种方式提高了写的性能,并且不影响数据的可靠性和读性能。

三、读写流程

写数据流程

读数据流程

四、大白话

这个东西就是为了解决数据量大而出来的,其思想是利用多个机器联合的力量来构造一个庞大的集群,让作业在各个机器上面运行,然后汇总到一个地方。当然每个机器是比较菜鸡的,但是菜鸡多了,每个人贡献一点,整个组织的力量就大了。这个和我们现在组织一样,有个领导者,就是NameNode,来管理我们的职员DataNode,你今天做了什么工作,写个日报给我,每天用心跳机制提醒一个,你应该写日报了。然后他能知道每个职员的情况。当然这里不能严格的类比,因为每个职员都不一样,但是DataNode是一样的。复制策略就是说,你走了我再招人培养,当然一般的老板不会这样做,花费人力成本太高了,但是当市场上这样的人多了之后,其实你就可以随时被替换了,所以好好学习,天天向上吧,毕竟还有吃饭。我们只有把自己的独特性弄出来之后,你就成为唯一的,且不能被辞掉的那个人了。

五、其他

下一篇:介绍数据仓库Hive。

鸡汤:今日事,今日毕。

备注:以上资料来自网络,侵删。

参考资料

https://blog.csdn.net/qq_43755771/article/details/90725393

https://www.cnblogs.com/gzshan/p/10981007.html

来来来,看这里,如果你觉得这篇文章对您有帮助,请关注点赞加收藏,想要了解更多请关注公众号联系博主,祝您生活愉快,身心健康!

大数据入门系列文章

1.大数据入门-大数据是什么

2.大数据入门-大数据技术概述(一)

3.大数据入门-大数据技术概述(二)

4.大数据入门-三分钟读懂Hadoop

大数据入门-五分钟读懂HDFS相关推荐

  1. 大数据入门-三分钟读懂Hadoop

    最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭! 大数据入门系列文章 1.大数据入门-大数据是什么 1.大数据入门-大数据是什么 2.大数据入门-大数据技术概述(一) 2.大数据 ...

  2. 五分钟读懂:大数据和传统数据的区别

    大数据.数据分析.数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发 ...

  3. 五分钟读懂UML类图

    平时阅读一些远吗分析类文章或是设计应用架构时没少与UML类图打交道.实际上,UML类图中最常用到的元素五分钟就能掌握,下面赶紧来一起认识一下它吧: 一.类的属性的表示方式 在UML类图中,类使用包含类 ...

  4. 五分钟读懂UML类图(转)

    平时阅读一些远吗分析类文章或是设计应用架构时没少与UML类图打交道.实际上,UML类图中最常用到的元素五分钟就能掌握,下面赶紧来一起认识一下它吧: 一.类的属性的表示方式 在UML类图中,类使用包含类 ...

  5. 大数据陷阱:需要读懂的10个小故事

    自2011年以来,大数据旋风以"迅雷不及掩耳之势"席卷中国.毋庸置疑,大数据已然成为继云计算.物联网之后新一轮的技术变革热潮,不仅是信息领域,经济.政治.社会等诸多领域都" ...

  6. 大数据入门,你需要懂这四个常识

    一.大数据分析的五个基本方面 1.可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能 ...

  7. 关于大数据,需要你读懂的10个小故事

    自2011年以来,大数据旋风以"迅雷不及掩耳之势"席卷中国.毋庸置疑,大数据已然成为继云计算.物联网之后新一轮的技术变革热潮,不仅是信息领域,经济.政治.社会等诸多领域都" ...

  8. 五分钟读懂经济学十大原理

    简易经济学 首先,因为你打开了这篇文章,所以我要恭喜你.如此无聊的题目你还愿意看,说明你很有求知欲,这一点你就比没打开文章的那些人强,坚持下去,你一定会有所成就. (没打开文章的人们,谁让你们不看我的 ...

  9. 【五分钟读懂】PHP中的opcache是什么,opcache是用来干嘛的?

    前言 opcache从字面意思,肯定是缓存这一块的.但是你是否知道它的工作原理是怎样的呢? 这里一点一点让你了解!PHP项目中,尤其是在高并发大流量的场景中,如何提升PHP的响应时间,是一项十分重要的 ...

最新文章

  1. 2022-2028年中国工业大数据行业深度调研及投资前景预测报告
  2. AI对抗冠状病毒爆发的11种方式
  3. Google C++ 编码风格精简
  4. Apache Storm 实时流处理系统ACK机制以及源码分析
  5. mysql 免安装版配置方法(经测试可行)
  6. python_45_目录编程
  7. 我的Android学习之旅--1环境配置
  8. The Distinguish of the share or static lib in MFC
  9. 删除计算机共享信息命令,win10系统使用命令将网络共享删除的操作办法
  10. android 即时聊天工具 yq,Android 开发即时聊天工具 YQ :(四) 获取好友列表
  11. mysql n叉树_MySQL索引底层:B+树详解
  12. fastdfs fild_id
  13. Dart中的Isolate
  14. 吉林大学高级程序设计(红皮书例题)(1~7章)
  15. python搜狗微信搜索wechatsogou 用法
  16. 浏览器的判断和Window系统是64位还是32位的判断
  17. windows电脑连接蓝牙耳机经常断开解决办法
  18. 金蝶云星空与管易云系统对接案例
  19. YOLOv5错误提示( torchvision和torch版本不兼容)
  20. 百万CAD设计施工图全集素材大全免费获取!

热门文章

  1. 在线学习的 40 个好地方(完整版)
  2. Python 打印三位所有水仙花数
  3. 使用指针的指针输出字符串
  4. spring5中文文档
  5. STM32入门(十四)----EXTI
  6. 吴恩达《机器学习》笔记(一)【线性回归梯度下降法】
  7. 2021-04-10 粤嵌单片机兴趣课(二)
  8. 黑苹果OC引导注入_黑苹果Clover 引导删除多余启动项教程
  9. 快速集成高大上的Banner
  10. 论文阅读:RoadMap: A Light-Weight Semantic Map for Visual Localizationtowards Autonomous Driving轻量语义自动驾驶