之所以是1.1倍的splitSize,原因应该是考虑到文件大小为32.1M这种情况,由于切片大小默认等于块大小,所以此时数据的块存储跟切片存储大小一致,都被分为32M和0.1M。而此时由于有两个切片则不得不开启两个MapTask。而MR不擅长处理小文件的运算也是因为此时启动MapTask的时间耗费比计算时间还长(此时不如用python处理)。而如果将32.1M只当成一个切片来处理的话,虽然数据块是位于两个节点服务器中,而MapTask只在其中一个服务器中,但只在两个服务器中传递这0.1M的时间成本相比于另外启动一个MapTask的时间而言应该会更加短。这些都是出于时间成本的考虑。

还有另一种35.3M32M * 1.1 = 35.2M的情况,此时由于大于1.1倍的splitSize,则需要切片,但需要注意每一切片的大小依然是块大小32M,所以此时会被切割成32M和3.3M。

MapReduce 切片源码中SPLIT_SLOP等于1.1的原因分析(TextInputFormat)相关推荐

  1. FileInputFormat切片源码解析

    文章目录 FileInputFormat切片源码解析 1.MapTask并行度决定机制 2.源码步骤 3.FileInputFormat切片机制 3.1 源代码中计算切片大小的公式 3.2 获取切片信 ...

  2. html5不支持的属性,IE9对HTML5中部分属性不支持的原因分析

    这篇文章主要为大家介绍了IE9对HTML5中部分属性不支持的原因分析,对于了解IE9与HTML5的应用有一定帮助作用,需要的朋友可以参考下 本文较为详细的分析了IE9对HTML5中部分属性不支持的原因 ...

  3. 十六、FileInputFormat介绍,切片源码分析

    一.InputFormat介绍 InputFormat,从单词意思解读分为输入.格式,也就是数据来源与加载数据的方式是决定MR编程的map阶段的任务并行度. 数据来源划分:其实也就是他的子类,由于我目 ...

  4. 抖音视频服务器维护中暂时无法观看,抖音显示服务器维护中暂时无法观看视频的原因分析...

    最近有不少抖音用户在使用软件的同时遇到一些问题,就是打开抖音发现不能观看视频了,抖音显示服务器维护中暂时无法观看视频这个到底是什么意思?要是抖音服务器维护该怎么办?如何才能涮抖音视频呢?不少小伙伴都有 ...

  5. Hadoop MapReduce Splits 切片源码分析及切片机制

    本文从Job提交,逐步分析Splits相关源码. 数据块:Block是HDFS物理上把数据分成一块一块的. 数据切片:数据切片只是在物理上输入进行分片,并不会在磁盘上将其分成片进行存储. 文件路径 o ...

  6. 大数据之-Hadoop3.x_MapReduce_切片源码总结---大数据之hadoop3.x工作笔记0105

    可以看到我们分析完,切片的源码,然后总结一下hadoop3.x的MapReduce的切片 过程 首先要知道切片这个过程是在InputFormat这个类中进行的 我们在InputFormat上按下ctr ...

  7. SpringBoot实现过滤器、拦截器与切片源码分析

    过滤器Filter 过滤器概念 Filter是J2E中来的,可以看做是Servlet的一种"加强版",它主要用于对用户请求进行预处理和后处理,拥有一个典型的处理链.Filter也可 ...

  8. 大数据之-Hadoop3.x_MapReduce_切片源码分析---大数据之hadoop3.x工作笔记0104

    然后我们开始来看看,切片的源码,看看到底是怎么切片的 然后我们继续调试,我们快速走就可以了,上节,已经调试一遍了. 然后进入job提交方法

  9. VC 操作Word, Excel 出现服务器正在运行中 Ole Server Busy对话框的原因分析和解决建议

    问题描述: 最近帮朋友弄个程序,处理Office Excel表.该Excel表加了密码,并且含有很多数据,当在VC中通过 Excel Ole对象打开该Excel文档时候,出现 "服务器正在运 ...

  10. 脚本中export不起作用的原因分析

    #!bin/bash export PATH=$PATH:/usr/lib/java/jre export PATH=$PATH:/usr/lib/java/bin ---path 结果发现直接运行. ...

最新文章

  1. 影像组学视频学习笔记(27)-SimpleITK包介绍、Li‘s have a solution and plan.
  2. [转载] 七龙珠第一部——第057话 小雨对布鲁
  3. mysql多租户schema复制,Asp.net core下利用EF core实现从数据实现多租户(3): 按Schema分离 附加:EF Migration 操作...
  4. Python处理大数据量文本数据思路
  5. socket开发:一台服务器同一端口同时在多个网卡上开启listen的误区理解。
  6. Mybatis学习笔记-CURD(基于配置文件的方式)
  7. Python中默认参数self的理解
  8. scala案例_Scala案例类和案例对象深入(第2部分)
  9. C中常量数组不能修改
  10. 用matlab符号计算求解二元函数极值
  11. 为什么随机存取存储器叫做随机
  12. 深入剖解路由器的“心脏”技术
  13. 手机端rem布局详解(淘宝无限适配)
  14. SPDY:一种更快速web的实验协议(转)
  15. 从P1到P7——我在淘宝这7年
  16. 数据科学-描述性统计
  17. 异常的深入研究与分析
  18. 全球第二款3D打印药物!三迭纪产品获美国FDA新药临床试验批准
  19. vue-amap 高德地图定位 点击获取经纬度和具体地址的使用
  20. 网络编程Socket基础

热门文章

  1. Tesseract文字训练,以及样本生成
  2. 尚硅谷的 ediary 笔记_【华硕灵耀X纵横(i71165G7/16GB/512GB/集显)评测】助力笔记本创新!英特尔Evo平台制定十大体验目标...
  3. 【图像检测-缺陷检测】基于灰度共生矩阵实现痕迹检测matlab代码
  4. Vue源码学习 -- 响应式原理之观察者模式
  5. 《林肯传》--[美]戴尔·卡耐基
  6. Taro 如何开始微信小程序的开发
  7. HTML5之帆布(canvas)(一)
  8. Jira 和 国内替代品TAPD的对比
  9. HIVE 实现均匀抽样
  10. 修正蹩脚的Scratch汉化