然后我们再来看一下这个FileInputFormat的切片机制,可以看到

实际上切片就是按照文件的长度,一个切片大小默认等于块大小,切片是逻辑切片,不是物理切片

仅仅是做了标记

然后切片时不考虑数据整体,二手一个文件一个文件的单独切片

一般都是用默认的就可以了,当然切片大小,你也可以让他进行比如,1kb,就开启一个maptask

1kb就开启一个maptask,但这样的话有个问题就是,太消耗性能了.

一般一个maptask的开启,会消耗1g的内存,1个cpu,所以一般都是要做合适的切片大小才行

大数据之-Hadoop3.x_MapReduce_FileInputFormat切片机制---大数据之hadoop3.x工作笔记0106相关推荐

  1. 大数据_Flink_流式处理_简介_Flink的特点---Flink工作笔记0006

    然后我们再来看一下flink的特点 我们可以先看一下传统的左边的数据处理过程,其实就类似我们做的传统的web应用, 也可以想一下netty处理数据的过程, 可以把请求看成一个事件,可以看到,服务器启动 ...

  2. 数据透视表的切片器实现数据动态交互

    切片器优势:格式更美观.同时控制多个数据透视表 操作:1.做好数据透视表之后,选中原数据表插入数据透视图(如果选择创建好的数据透视表就直接生成了这个数据表的图表了),确定创建的数据透视表区域. 2.此 ...

  3. 大数据之-Hadoop3.x_MapReduce_切片机制与MapTask并行度决定机制---大数据之hadoop3.x工作笔记0102

    然后我们来看MapReduce的框架原理,这里是很重要的,其中MapTask用来处理map阶段的任务, 然后reduceTask用来处理reduce阶段的任务. 那么MapTask主要做了什么事呢?首 ...

  4. 大数据_Flink_数据处理_流处理API_Source_自定义测试数据源---Flink工作笔记0028

    然后我们来看,一般情况下,从文件中读取数据,用的,不如 从kafka,中读取数据用的多. 然后我们再来看一种,自定义数据源,这个主要是我们可以在上线之前模拟很多的数据来进行测试对吧. 这里我们新写一个 ...

  5. 大数据_Flink_流式处理_简介_Flink是什么---Flink工作笔记0001

    技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 是一个框架,分布式的处理引擎,对有状态的计算,有界无界,这个后面咱们说是什么意思. 用于对有界和无 ...

  6. 大数据_MapperReduce_Hbase配置参数说明_以及部分源码说明---Hbase工作笔记0031

    技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 然后我们接着去看,这里我们主要看一些参数,以及对一些参数的源码说明 首先我们看这个他的master ...

  7. 大数据_Hbase-API访问_Java操作Hbase_MR-数据迁移-代码测试---Hbase工作笔记0017

    技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 然后我们继续写,我们要通过mapper,把数据从一个表中查询出来,然后,再把数据, 弄成put,然 ...

  8. 大数据_Hbase-API访问_Java操作Hbase_MR-数据迁移-开发代码---Hbase工作笔记0016

    技术交流QQ群[JAVA,C++,Python,.NET,BigData,AI]:170933152 我们可以通过MapReduce从hbase中插入数据,或者获取数据. 注意hadoop要执行Map ...

  9. 大数据_Flink_Java版_状态管理(2)_算子状态---Flink工作笔记0061

    在flink中我们说,对于reduce,map,flatMap等这样的算子,他的状态,只是局限于这个任务的,不可能传输到其他任务对吧,因为我们知道,不同的任务可能在不同的节点上,那么我们知道状态都是存 ...

最新文章

  1. python自动测试g_使用Python进行自动化测试
  2. QDoc通用配置变量
  3. mysql 代码怎么优化_Mysql性能优化
  4. Range-v3 practical examples
  5. 快速傅里叶变换python_【原创】OpenCV-Python系列之傅里叶变换(三十八)
  6. BZOJ4825: [Hnoi2017]单旋(Splay)
  7. JS之返回数组指定元素的slice
  8. 机器学习者都应该知道的五种损失函数!
  9. 计算机相关科幻小说,科幻小说家和计算机科学家总是用人工智能来迷惑我们,计算机可以...
  10. Android ListView反复调用getView和getCount
  11. 一个简单的任务处理队列
  12. Spring boot mqtt客户端
  13. 软件工程与计算II-24-考试总结
  14. python interpreter是什么_如何写一个Python Interpreter | 学步园
  15. PMBOK(第六版) 学习笔记 ——《第五章 项目范围管理》
  16. 云计算laas、paas、saas介绍和分类
  17. Selenium查找元素
  18. 【组合数学】通俗解释 Burnside引理和Polya定理
  19. 【iOS开发】-UIPickerView
  20. java 狗带风波_狗狗风波

热门文章

  1. automake生成静态库文件_基于CocoaPods的组件化原理及私有库实践
  2. 两个结构体变量可以直接赋值吗_Gox语言中的结构类型-GX6
  3. 2017年3月计算机二级c语言真题,2017年3月计算机二级C语言习题及答案
  4. 表达式求值(nyoj305)
  5. Python中出现“TabError: inconsistent use of tabs and spaces in indentation”
  6. 毕设日志——特征融合修改vgg16.py
  7. 后台取值页面显示——Vue.js
  8. JAVA EE 开发中 常用的API包
  9. Android Studio 初探
  10. hdu 2117(小数点后m位)