2019独角兽企业重金招聘Python工程师标准>>>

hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。
     为了方便介绍,先来看几个名词:
block_size : hdfs的文件块大小,默认为64M,可以通过参数dfs.block.size设置
total_size : 输入文件整体的大小
input_file_num : 输入文件的个数

(1)默认map个数
     如果不进行任何设置,默认的map个数是和blcok_size相关的。
     default_num = total_size / block_size;

(2)期望大小
     可以通过参数mapred.map.tasks来设置程序员期望的map个数,但是这个个数只有在大于default_num的时候,才会生效。
     goal_num = mapred.map.tasks;

(3)设置处理的文件大小
     可以通过mapred.min.split.size 设置每个task处理的文件大小,但是这个大小只有在大于block_size的时候才会生效。
     split_size = max(mapred.min.split.size, block_size);
     split_num = total_size / split_size;

(4)计算的map个数
compute_map_num = min(split_num,  max(default_num, goal_num))

除了这些配置以外,mapreduce还要遵循一些原则。 mapreduce的每一个map处理的数据是不能跨越文件的,也就是说min_map_num >= input_file_num。 所以,最终的map个数应该为:
     final_map_num = max(compute_map_num, input_file_num)

经过以上的分析,在设置map个数的时候,可以简单的总结为以下几点:
(1)如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。
(2)如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。
(3)如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。

转载于:https://my.oschina.net/u/2000675/blog/650670

hadoop中map的个数相关推荐

  1. hadoop中map和reduce的数量设置问题

    转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务 ...

  2. 如何在hadoop中控制map的个数

    hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...

  3. hadoop中如何控制map的数量

    hadoop中如何控制map的数量 @(HADOOP)[hadoop] hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这 ...

  4. 深度分析如何在Hadoop中控制Map的数量

    深度分析如何在Hadoop中控制Map的数量 guibin.beijing@gmail.com 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数 ...

  5. Hadoop中Block和Split区别

    两者是从不同的角度来定义的: HDFS以固定大小的block为基本单位存储数据(分布式文件系统,实际存储角度,物理存储单位): MapReduce以split作为处理单位(编程模型角度,逻辑单位): ...

  6. 考究Hadoop中split的计算方法

    Hadoop中block块大小和split切片大小会影响到MapReduce程序在运行过程中的效率.map的个数.在本文中,以经典入门案例WordCount为例,通过debug的方式跟踪源代码,来分析 ...

  7. 浅析 Hadoop 中的数据倾斜

    最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同 ...

  8. hadoop中使用MapReduce编程实例

    原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...

  9. 分别用BFS和DFS求给定的矩阵中“块”的个数

    目录 背景介绍 BFS实现 基本思想 获取相邻位置元素技巧 BFS函数 DFS实现 基本思想 DFS函数 完整代码 背景介绍 背景 给出一个mxn的矩阵,矩阵中的元素为0或1.称位置(x,y)与其上下 ...

最新文章

  1. python shape函数_Perlin噪声和Python的ctypes
  2. 如何修改WAMP中mysql默认空密码
  3. 板邓:【WordPress文件解读】wp-config.php
  4. android 访问https服务器
  5. pandas数据处理 代码_使用Pandas方法链接提高代码可读性
  6. Linux常用的命令及操作技巧
  7. APPKIT打造稳定、灵活、高效的运营配置平台
  8. java集合表_java集合类散列表
  9. MySQL遭遇DELETE误操作的回滚
  10. AngularJS的学习--ng-show/ng-hide/ng-if和ng-switch
  11. Kalman算法C++实现代码(编译运行通过)
  12. JSP指令:page指令,errorPage和isErrorPage
  13. Ubuntu20.04 安装wine QQ
  14. 【matlab】多维向量的转置
  15. java手机下载软件_山寨手机java软件怎么下载?
  16. 线性系统的状态空间分析和综合
  17. JavaScript——DOM文档
  18. 大数据杀熟行为10月1日起明令禁止!
  19. Ubuntu-默认浏览器Firefox不能播放B站视频的修复过程
  20. 如何训练结构化思维能力?它是一种工作方法还是思维方式?

热门文章

  1. 闲谈“个人核心竞争力”与“危机感” !!!
  2. JDB2导致磁盘io使用率高
  3. 菲波拉契数列(传统兔子问题)
  4. linux常用命令汇总(pwd,echo,history,nano)
  5. [Java 基础]接口
  6. asp.Net_图片上传的一个类库的源码
  7. intellij手动添加依赖jar包
  8. intellij运行多个工程
  9. superset可视化-deck.gl 3D Hexagon与deck.gl Grid与deck.gl Screen Grid
  10. clickhouse一键登陆