1.4. HDFS 文件副本和 Block 块存储


所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中, 在 Hadoop1当中, 文件的 block 块默认大小是 64M, hadoop2 当中, 文件的 block块大小默认是 128M, block 块的大小可以通过 hdfs-site.xml当中的配置文件进行指定

<property><name>dfs.block.size</name><value>块大小 以字节为单位</value>
</property>

1.4.1. 引入块机制的好处

  1. 一个文件有可能大于集群中任意一个磁盘
  2. 使用块抽象而不是文件可以简化存储子系统
  3. 块非常适合用于数据备份进而提供数据容错能力和可用性

1.4.2. 块缓存

通常 DataNode 从磁盘中读取块, 但对于访问频繁的文件,其对应的块可能被显式的缓存在 DataNode 的内存中, 以堆外块缓存的形式存在.默认情况下,一个块仅缓存在一个 DataNode的内存中,当然可以针对每个文件配置 DataNode 的数量.作业调度器通过在缓存块的 DataNode 上运行任务,可以利用块缓存的优势提高读操作的性能.

例如:

连接(join) 操作中使用的一个小的查询表就是块缓存的一个很好的候选用户或应用通过在缓存池中增加一个 Cache Directive 来告诉 NameNode需要缓存哪些文件及存多久. 缓存池(Cache Pool)是一个拥有管理缓存权限和资源使用的管理性分组.

例如一个文件 130M, 会被切分成 2 个 block 块, 保存在两个 block 块里面,实际占用磁盘 130M 空间, 而不是占用256M的磁盘空间

1.4.3. HDFS 文件权限验证

HDFS 的文件权限机制与 Linux 系统的文件权限机制类似

    r:read  w:write  x:execute

权限 x 对于文件表示忽略, 对于文件夹表示是否有权限访问其内容 如果 Linux系统用户 zhangsan 使用 Hadoop 命令创建一个文件, 那么这个文件在 HDFS当中的 Owner 就是 zhangsan HDFS 文件权限的目的, 防止好人做错事,而不是阻止坏人做坏事. HDFS相信你告诉我你是谁, 你就是谁

大数据-HDFS 文件副本和 Block 块存储相关推荐

  1. 大数据——HDFS的常用命令

    标题大数据--HDFS的常用命令 hdfs常用命令行: (1)查看帮助hdfs dfs -help (2)查看当前目录信息hdfs dfs -ls /(3)上传文件hdfs dfs -put /本地路 ...

  2. 数据结构与算法 第八天常见排序+冒泡排序+快速排序+文件IO+大数据排序+文件合并

    数据结构与算法 第八天常见排序+冒泡排序+快速排序+文件IO+大数据排序+文件合并 第一章 冒泡排序 [1]Bubble_Sort.c 第二章 快速排序 [1]quick_sort.c 第三章 大数据 ...

  3. 问题解决-----如何从windows10向ubuntu传输大数据的文件(大于等于50M)

    问题解决-----如何从windows10向ubuntu传输大数据文件目录 一.问题描述 1.问题描述如下: 二.FileZilla的下载及安装 1.FileZilla的下载地址如下所示: 2.Fil ...

  4. 国家大数据政策文件汇编(2022年) 附下载

    数据作为新型生产要素,是数字化.网络化.智能化的基础,已快速融入生产.分配.流通.消费和社会服务管理等各环节,深刻改变着生产方式.生活方式和社会治理方式.数据基础制度建设事关国家发展和安全大局.为加快 ...

  5. 大数据架构-使用HBase和Solr配置存储与索引

    大数据架构-使用HBase和Solr配置存储与索引 2014-08-22 11:04 王安琪 博客园 字号:T | T HBase可以通过协处理器Coprocessor的方式向Solr发出请求,Sol ...

  6. 大数据之-Hadoop之HDFS的API操作_配置参数的优先级说明_以设置hdfs文件副本数量参数为案例---大数据之hadoop工作笔记0057

    然后我们再来看一下配置参数的优先级的问题. 我没用这个副本数量来做案例.我们可以看到三一节上传的文件副本banzhang.txt的数量是3. 我们知道文件副本的数量是在hdfs-site.xml上面这 ...

  7. 彻底理解大数据 HDFS 分布式文件系统,这篇就够了

    来源:https://www.cnblogs.com/cainiao-chuanqi/p/11420490.html 文件系统的基本概述 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得 ...

  8. 大数据-HDFS文件系统是什么

    导语   Hadoop中附带了一个HDFS(Hadoop分布式文件系统)的分布式文件系统,专门用来存储超级大文件使用,它为整个的Hadoop应用生态圈提供了基础的文件存储功能. 文档目录 HDFS 特 ...

  9. 大数据HDFS凭啥能存下百亿数据?

    前言 大家平时经常用的百度网盘存放电影.照片.文档等,那有想过百度网盘是如何存下那么多文件的呢?难到是用一台计算机器存的吗?那得多大磁盘啊?显然不是的,那本文就带大家揭秘. 分布式存储思想 既然一台机 ...

  10. 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的动态扩容和缩容~个人学习复习记录~PART-05

    概念 1.在不影响当前集群正常运行的情况下,对集群的主机的数量进行增加或者减少 一.操作步骤-动态上线 1.准备一台机器node4,该机器要满足以下条件 IP:194.168.88.164 设置主机名 ...

最新文章

  1. 源码推荐:collectionView拖拽,仿凤凰FM iOS 局部监听键盘再也不会挡住输入框
  2. 如何实现Asp与Asp.Net共享Session
  3. listview 的 selection mode 训练小例子
  4. 虚函数和纯虚函数的区别
  5. Struts1.2配置详解
  6. 只读变量(常量)和位置变量
  7. P4552-[Poetize6]IncDec Sequence【差分】
  8. JAVA-初步认识-第十三章-多线程(验证同步函数的锁)
  9. windows下替代SSH,Xshell软件的mobaxterm
  10. mysql 组复制和传统复制_2017年12月聚合文章--MySQL 传统复制中常见故障处理和结构优化案例分析 | 码友网...
  11. <Java设计模式>(二)UML类图 | 设计模式概述和分类
  12. 记账时,如何对开销进行分类
  13. 如何带领好一个团队,管理的五条实用建议告诉你
  14. Matlab信号处理,小波降噪
  15. 出场顺序很重要下一句_年少有为一夜刷爆朋友圈:人生的出场顺序真的很重要...
  16. c语言linux系统时间,【整理】C语言设置Linux系统时间 | 勤奋的小青蛙
  17. 企业财务管理信息化现状思考与探索
  18. 质因数分解(java)
  19. 6.Python之函数
  20. 撮合引擎开发:MVP版本

热门文章

  1. 手把手带你撸一个校园APP(四):APP功能设计及主页面框架
  2. 微信小程序实战十三:狗狗小程序云搭建
  3. 镁光闪存颗粒对照表_海力士、南亚、镁光内存颗粒编码解析,妈妈再也不用担心你买内存条了...
  4. 区块链技术掀起积分系统的又一次“革命”
  5. ABP VNext纯洁版项目模板
  6. Warning: [antd: Form.Item] `defaultValue` will not work on controlled Field. You should use `initial
  7. 【目标检测】58、目标检测中的正负样本分配策略总结
  8. 一种人机友好的视频压缩方案(HMFVC)
  9. 任何情况下请通过正规渠道变更信用卡额度
  10. 服务器不能使用无线键盘,无线键盘突然没反应怎么回事_无线键盘没反应的解决方法...