block的大小与修改

Hadoop2.x/3.x版本中Block的默认大小为128M,早前版本中默认为64M,开发人员可以在hdfs-site.xml中添加如下标标签进行修改。

<!-- hdfs-site.xml -->
<property><name>dfs.blocksize</name>#value值代表block块的大小<value>256m</value>
</property>

HDFS默认配置

<!--
HDFS默认配置
hdfs-default.xml
-->
<property><name>dfs.blocksize</name><value>134217728</value><description>The default block size for new files, in bytes.You can use the following suffix (case insensitive):k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),Or provide complete size in bytes (such as 134217728 for 128 MB).</description>
</property>

Hadoop2.x、3.x中block为什么默认为128M

block越大对一个block的传输时间会越长,block越小寻找block的时间会越长,通常认为寻址时间是传输时间的1%时为最佳状态。
HDFS中寻址时间一般为10ms,则传输时间最好为10ms/1%=1000ms=1s,而当前普通的机械硬盘的传输速度为100M/s左右,所以为了达到最佳状态,每个地址的数据大小最好为1s*100M/s=100M。
由此每个block大的大小默认设置为128M。

当切换了拥有更高传输速率的硬盘(如固态硬盘)时,可以将Block的大小适当增加以达到最佳状态。

block为什么不能过小或过大

如果block过小,存放的文件会被切分的过于零散,程序会将更多的时间消耗在寻找block中,NameNode也会消耗更多的空间来存储block所在主机的信息。
如果block过大,传输时间的%1会明显大于寻址时间,导致寻址时间与传输时间不平衡,另外InputFormat的默认切片规则会以block的大小确定切片的大小,block越大,切片就会越大,Map过程会变得缓慢。

HDFS中block的大小相关推荐

  1. 为什么HDFS中的块如此之大?

    HDFS中的块大小默认为64MB,为什么说它如此之大,这是与磁盘块相比得出的.所以在了解HDFS块之前,我们需要了解下磁盘上的块. 磁盘块 每个磁盘都有默认的数据块大小,这是磁盘进行数据读写的最小单位 ...

  2. 【问题】HDFS中块(block)的大小为什么设置为128M?

    一.为什么HDFS中块(block)不能设置太大,也不能设置太小? 如果块设置过大, 一方面,从磁盘传输数据的时间会明显大于寻址时间,导致程序在处理这块数据时,变得非常慢: 另一方面,mapreduc ...

  3. HDFS概述(2)————Block块大小设置

    参考: HDFS概述(4)----HDFS权限 HDFS概述(3)----HDFS Federation HDFS概述(2)----Block块大小设置 HDFS概述(1)----HDFS架构 问题 ...

  4. 指定hdfs中namenode的地址_HDFS文件上传下载步骤

    先来了解下分布式文件系统(Distributed FileSystem),它是跨越多台计算机或者服务器来管理文件或目录等数据.换句话说,分布式文件系统是允许我们在一个集群的多个节点或机器上存储数据,并 ...

  5. HDFS的Block size的默认大小

    今天无意中听到了同事说关于HDFS中每个block的大小,特意查了下: 从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的说明,发现是从2.7.3版本开始,官方关于Data ...

  6. HBase建表高级属性,hbase应用案例看行键设计,HBase和mapreduce结合,从Hbase中读取数据、分析,写入hdfs,从hdfs中读取数据写入Hbase,协处理器和二级索引

    1. Hbase高级应用 1.1建表高级属性 下面几个shell 命令在hbase操作中可以起到很到的作用,且主要体现在建表的过程中,看下面几个create 属性 1. BLOOMFILTER 默认是 ...

  7. Objective-C中block的底层原理

    先出2个考题: 1. 上面打印的是几,captureNum2 出去作用域后是否被销毁?为什么? 同样类型的题目: 问:打印的数字为多少? 有人会回答:mutArray是captureObject方法的 ...

  8. vmware虚拟机上的centos安装Hadoop,以及在本地eclipse上运行mapReduce项目,并将文件输出到HDFS中...

    注意centos主机名不支持下划线,所以文章中若出现centos_02.com,请替换为 centos02.com vmware虚拟机上的centos安装Hadoop 安装vmware虚拟机 虚拟机上 ...

  9. HDFS物理块存储大小

    HDFS物理块存储大小 一.HDFS数据块 数据块:Block是HDFS物理上把数据分成一块一块. 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储. hadoop数据 ...

最新文章

  1. 微软Windows 8最新幻灯片泄露
  2. 计算机科学基础第二版答案,浙江大学计算机科学基础课后习题参考答案new-PXY.doc...
  3. JQuery + jquery插件
  4. 排序算法之(7)——堆排序
  5. Linux学习 命令部分
  6. [Cacti] cacti监控mongodb性能实战
  7. 从零开始:什么是Makefile分析
  8. 刚刚,华为云找到了更安全更卫生的乘坐电梯方式
  9. python实现基于北大开源的分词工具 pkuseg 进行分词实践
  10. oracle jde优势介绍,JDE 的扫盲知识介绍。。。
  11. SlickEdit 之--配置传承
  12. “今天星期五“-SAP SE09/STMS 请求号传输中遇到的错误及解决方案
  13. CleanMyMac4.12最新版mac系统内存空间清理教程
  14. Python - poetry(4)管理环境
  15. Codeforces 1148D. Dirty Deeds Done Dirt Cheap
  16. 增量学习方法分类及近两年论文汇总
  17. 风车动漫服务器维修要多长时间,风车动漫APP是什么样的软件?风车动漫APP出现打不开的具体处理方法...
  18. ipad极品飞车无限狂飙无法连接服务器,极品飞车:无极限赛车总是显示无法连接网络...
  19. 感冒鼻塞头痛的原因是什么?
  20. 那时本该像风一样把你忘记

热门文章

  1. 安全运营四要素之资产、脆弱性、威胁和事件
  2. [地质学笔记]粒度概率累积曲线
  3. 用PHP来统计在线人数的四个方法详解
  4. 不懂数据库的码农不是好程序员!
  5. linux查询网卡是百兆还是千兆,查看网卡是百兆还是千兆
  6. java弹框刷新原页面_JavaScript:关闭弹出窗口时刷新父窗口
  7. [GYCTF2020]Blacklist
  8. mapboxGL中sprite生成与引用
  9. 做一名开源社区的扫地僧
  10. 数据结构之二叉树基本操作