hadoop中map的个数
2019独角兽企业重金招聘Python工程师标准>>>
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。
为了方便介绍,先来看几个名词:
block_size : hdfs的文件块大小,默认为64M,可以通过参数dfs.block.size设置
total_size : 输入文件整体的大小
input_file_num : 输入文件的个数
(1)默认map个数
如果不进行任何设置,默认的map个数是和blcok_size相关的。
default_num = total_size / block_size;
(2)期望大小
可以通过参数mapred.map.tasks来设置程序员期望的map个数,但是这个个数只有在大于default_num的时候,才会生效。
goal_num = mapred.map.tasks;
(3)设置处理的文件大小
可以通过mapred.min.split.size 设置每个task处理的文件大小,但是这个大小只有在大于block_size的时候才会生效。
split_size = max(mapred.min.split.size, block_size);
split_num = total_size / split_size;
(4)计算的map个数
compute_map_num = min(split_num, max(default_num, goal_num))
除了这些配置以外,mapreduce还要遵循一些原则。 mapreduce的每一个map处理的数据是不能跨越文件的,也就是说min_map_num >= input_file_num。 所以,最终的map个数应该为:
final_map_num = max(compute_map_num, input_file_num)
经过以上的分析,在设置map个数的时候,可以简单的总结为以下几点:
(1)如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。
(2)如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。
(3)如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。
转载于:https://my.oschina.net/u/2000675/blog/650670
hadoop中map的个数相关推荐
- hadoop中map和reduce的数量设置问题
转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务 ...
- 如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
- hadoop中如何控制map的数量
hadoop中如何控制map的数量 @(HADOOP)[hadoop] hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这 ...
- 深度分析如何在Hadoop中控制Map的数量
深度分析如何在Hadoop中控制Map的数量 guibin.beijing@gmail.com 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数 ...
- Hadoop中Block和Split区别
两者是从不同的角度来定义的: HDFS以固定大小的block为基本单位存储数据(分布式文件系统,实际存储角度,物理存储单位): MapReduce以split作为处理单位(编程模型角度,逻辑单位): ...
- 考究Hadoop中split的计算方法
Hadoop中block块大小和split切片大小会影响到MapReduce程序在运行过程中的效率.map的个数.在本文中,以经典入门案例WordCount为例,通过debug的方式跟踪源代码,来分析 ...
- 浅析 Hadoop 中的数据倾斜
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同 ...
- hadoop中使用MapReduce编程实例
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...
- 分别用BFS和DFS求给定的矩阵中“块”的个数
目录 背景介绍 BFS实现 基本思想 获取相邻位置元素技巧 BFS函数 DFS实现 基本思想 DFS函数 完整代码 背景介绍 背景 给出一个mxn的矩阵,矩阵中的元素为0或1.称位置(x,y)与其上下 ...
最新文章
- python shape函数_Perlin噪声和Python的ctypes
- 如何修改WAMP中mysql默认空密码
- 板邓:【WordPress文件解读】wp-config.php
- android 访问https服务器
- pandas数据处理 代码_使用Pandas方法链接提高代码可读性
- Linux常用的命令及操作技巧
- APPKIT打造稳定、灵活、高效的运营配置平台
- java集合表_java集合类散列表
- MySQL遭遇DELETE误操作的回滚
- AngularJS的学习--ng-show/ng-hide/ng-if和ng-switch
- Kalman算法C++实现代码(编译运行通过)
- JSP指令:page指令,errorPage和isErrorPage
- Ubuntu20.04 安装wine QQ
- 【matlab】多维向量的转置
- java手机下载软件_山寨手机java软件怎么下载?
- 线性系统的状态空间分析和综合
- JavaScript——DOM文档
- 大数据杀熟行为10月1日起明令禁止!
- Ubuntu-默认浏览器Firefox不能播放B站视频的修复过程
- 如何训练结构化思维能力?它是一种工作方法还是思维方式?
热门文章
- 闲谈“个人核心竞争力”与“危机感” !!!
- JDB2导致磁盘io使用率高
- 菲波拉契数列(传统兔子问题)
- linux常用命令汇总(pwd,echo,history,nano)
- [Java 基础]接口
- asp.Net_图片上传的一个类库的源码
- intellij手动添加依赖jar包
- intellij运行多个工程
- superset可视化-deck.gl 3D Hexagon与deck.gl Grid与deck.gl Screen Grid
- clickhouse一键登陆