玩大数据,首先得学如何存大数据。

那问题来了,数据怎么存呢?

路人1:存在window操作系统的“我的电脑”的C,D,E,F盘里面咯。

我:那如果我的数据很多呢?有5个T的数据。

路人1:加装4个1T的硬盘

我:那如果我有1000T的数据呢!

路人1:装999个1T的硬盘

我:。。。杠精滚粗

首先我承认加硬盘的确是个好方法。能让我们存很多的数据,但是我们需要考虑一下几个问题。

1. 硬盘扫描问题:比如我现在要从C盘找一个文件,如果我的C盘有1000T的文件量,找出一个文件应该是很耗时的(我自己笔记本从500g里面找一个文件都要半天)

2. 安全问题:如果一台电脑炸了,那你数据全部就没了。

3. 插槽问题:你电脑有这么多硬盘接口???

其实还有很多问题,咱这就不一一讨论了。进入正题:

什么是HDFS(分布式文件系统):

通俗点说就是几台电脑把文件系统共享的一种文件系统。

还是不够通俗?啥文件系统巴拉巴拉的?

那就举个栗子吧。

A君有一台笔记本,硬盘2T

B君有一台笔记本,硬盘2T

C君有一台笔记本,硬盘2T

他们都用window操作系统,而且都只有C盘(注意C盘你可以理解为就是一种文件系统,因为C盘用来管理文件嘛)

有一天A君的C盘容量不够了,只能跑到B君那,把文件存在B君的电脑上。可是他们住的比较远存来存去好烦。

这时候C君这位技术宅出面了,说为什么我们不能把我们3个的硬盘用一种网路的方式连接起来组合成一个6个T的网盘。

以后我们只需要向这个网盘里面存东西,取文件也从这个网盘里面取。

这是个好主意!于是3人说干就干,造出了这个网盘。

这个网盘有如下几点特性:
1. 一人上传文件,文件会被随机存入的3台电脑中的某台电脑(除非某台电脑容量满了)

2. 上传的文件会有一个备份文件,这个备份文件会被存入另外一台电脑(如果一台电脑炸了,备份文件在另一台电脑上是安全的)

3. 还有啥特性我没想好

好的!说了这么多,这个网盘,你可以理解为就是hdfs的一个简化版了。

那什么是hdfs?就是一个分布式(多台电脑)文件系统(大网盘)!

多台电脑的C盘用网络连接起来组成的大网盘,就叫分布式文件系统!!!

下一章细细讨论下hdfs的原理,以备面试用

转载于:https://www.cnblogs.com/jy451/p/10200124.html

大数据存储1----什么是hdfs!!!相关推荐

  1. 大数据存储引擎——Kudu

    一.什么是Kudu[Fast Analytics on Fast Data] 是一个既支持随机读写,又支持OLAP(Online analytical processing)分析的大数据存储引擎,平衡 ...

  2. 澄清大数据存储——系统集成商篇

    大数据考验整合能力 大数据在带来新的商机和用户的同时,也带来了诸多挑战. 大数据存储主要考验的是技术整合能力和资源整合能力. 大数据是一项持久的工程,也是一个不断迭代的过程,不能一蹴而就. 业务集中在 ...

  3. hadoop fs –ls /hbase 无内容_Hadoop大数据实战系列文章之HDFS文件系统

    扫码加入千人跳槽求职QQ群,每日都有全国招聘信息哦     Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统,专门 存储超大数据文件,为整个 Hadoop 生态圈提 ...

  4. 管理大数据存储的十大技巧

    在1990年,每一台应用服务器都倾向拥有直连式系统(DAS).SAN的构建则是为了更大的规模和更高的效率提供共享的池存储.Hadoop已经逆转了这一趋势回归DAS.每一个Hadoop集群都拥有自身的- ...

  5. 基于HBase的大数据存储在京东的应用场景

    引言 HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群.因 ...

  6. Hadoop大数据原理(2) - 分布式文件系统HDFS

    文章目录 1. 数据存储问题 2. RAID技术的原理和思路 2.1 常用RAID的原理介绍 2.2 RAID间的性能比较 3. 大数据时代的分布式文件系统 3.1 HDFS的稳固地位 3.2 HDF ...

  7. 大数据存储技术方案介绍

    2019独角兽企业重金招聘Python工程师标准>>> 大数据存储方案 Cap思想 分布式领域CAP理论, Consistency(一致性), 数据一致更新,所有数据变动都是同步的 ...

  8. 大数据存储技术之KUDU学习总结/快速入门

    KUDU学习总结 1 基础概念 官方:https://kudu.apache.org/ 在 KUDU 之前,大数据主要以两种方式存储: • 静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离 ...

  9. 【2022持续更新】大数据最全知识点整理-HDFS篇

    大数据最全知识点整理-HDFS篇 导语 基础知识 1.Hadoop有几种部署方式 2.HDFS的各进程名称与功能 3.HDFS读流程 4.HDFS写流程 5.HDFS写文件时节点挂机处理 6.HDFS ...

最新文章

  1. ExpressQuantumGrid.Suite.v6.30 在Delphi 7中的安装 收藏
  2. java 绝对路径_java 获取绝对路径
  3. boost库linux编译安装
  4. 进程是如何使用内存的?
  5. mysql源码_MySql轻松入门系列——第一站 从源码角度轻松认识mysql整体框架图
  6. abap 取日期最大_Pointer干货分享:SQL面试50题思路解答与分类整理(下)CASE与日期函数...
  7. 我是一个CPU:这个世界慢!死!了!
  8. 微信小游戏开发(11)-文件系统
  9. server2008实验之七 利用FSRM实现文件服务器精确管理.
  10. 数据分析必备软件Excel安装包+激活工具
  11. html 整体架构框架 源码,上 中 下结构网页模板布局框架代码
  12. swiper3 匀速无缝滚动
  13. 敏态下“骨架化、模块化”测试案例编写技术实践
  14. 要不要从单片机转Linux?进来看看大神怎么说
  15. IP数据包的路由转发
  16. GPS导航电文文件和观测值文件解读
  17. 安装 - LNMP一键安装包
  18. 解决shiro重定向URL中出现sessionID的情况localhost:8080/toLogin;jsessionid=D5C1EE61B97EE2D7098F58A837B82BD4
  19. 深入理解AMS --- 一 AMS 的启动
  20. 借名买房委托协议是否有效?

热门文章

  1. excel中多列内容显示不全
  2. IB学校书单合集请收藏好
  3. Echarts图表设置x轴y轴均随滚轮滚动缩+放 区域缩放
  4. 沐阳Python扫盲01类的概念与实例
  5. 进销存仓库管理软件的应用场景与效益
  6. Python 骚操作:微信远程控制电脑(转载)
  7. 怎样将kux格式转换mp4?高效简单的技巧你要懂
  8. 解决导出Excel表格,浏览器不下载
  9. HttpsUtil(GET/POST/DELETE/PUT)
  10. √ JavaSE - 02.怎么打印回形数