Hadoop之ReduceTask工作机制


目录

  1. 设置ReduceTask并行度(个数)
  2. 注意
  3. 实验:测试reducetask多少合适
  4. ReduceTask工作机制

1. 设置ReduceTask并行度(个数)

reducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置:

//默认值是1,手动设置为4
job.setNumReduceTasks(4);

2. 注意

  1. reducetask=0 ,表示没有reduce阶段,输出文件个数和map个数一致。
  2. reducetask默认值就是1,所以输出文件个数为一个。
  3. 如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜
  4. reducetask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个reducetask。
  5. 具体多少个reducetask,需要根据集群性能而定。
  6. 如果分区数不是1,但是reducetask为1,是否执行分区过程。答案是:不执行分区过程。因为在maptask的源码中,执行分区的前提是先判断reduceNum个数是否大于1。不大于1肯定不执行。

3. 实验:测试reducetask多少合适

  1. 实验环境:1个master节点,16个slave节点:CPU:8GHZ,内存: 2G
  2. 实验结论:

4. ReduceTask工作机制

Hadoop之ReduceTask工作机制相关推荐

  1. ReduceTask工作机制

    ReduceTask工作机制图示 ReduceTask工作机制流程 1. Copy阶段 ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘 ...

  2. B05 - 048、ReduceTask工作机制

    初学耗时:0.5h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 一.ReduceTask工作机制   1.1  整个 Reduce阶段流程.   1.2  简单概述. ...

  3. MapTask运行机制详解以及Map任务的并行度,ReduceTask 工作机制以及reduceTask的并行度,MapReduce总体工作机制

    MapTask运行机制详解 整个Map阶段流程大体如图所示 简单概述 inputFile通过split被逻辑切分为多个split文件, 通过Record按行读取内容给map(用户自己实现的)进行处理, ...

  4. Hadoop之Yarn工作机制详解

    Hadoop之Yarn工作机制详解 目录 Yarn概述 Yarn基本架构 Yarn工作机制 作业提交全过程详解 1. Yarn概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于 ...

  5. Hadoop之MapTask工作机制

    Hadoop之MapTask工作机制 目录 并行度决定机制 MapTask工作机制 1. 并行度决定机制 问题引出 maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度 ...

  6. Hadoop之DataNode工作机制

    Hadoop之DataNode工作机制 目录 DataNode工作机制 数据完整性 掉线时限参数设置 1. DataNode工作机制 DataNode工作机制如下图 一个数据块在DataNode上以文 ...

  7. 【hadoop】HDFS-HA工作机制

    一.HA概述 1)所谓HA(High Available),即高可用(7*24小时不中断服务). 2)实现高可用最关键的策略是消除单点故障.HA严格来说应该分成各个组件的HA机制:HDFS的HA和YA ...

  8. Hadoop大数据分布式文件系统hdfs的工作机制

    HDFS集群分为两大角色:NameNode.DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块 namenode工作机制 namenode职责: ...

  9. 王家林 云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程...

    这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程. 通过HDFS的心跳来测试repl ...

最新文章

  1. Linux命令之more
  2. linq to sql实战
  3. 数学之美笔记(二十)
  4. 详细讲述STP过程【转自56cto.com】
  5. python常用代码_Python常用算法学习(3)(原理+代码)——最全总结
  6. LeetCode 1769. 移动所有球到每个盒子所需的最小操作数(前缀和)
  7. 高清接口芯片---gv7600、sii9135
  8. mysql-workbench 导入csv格式数据报错:Unhandled exception: Could not determine delimiter
  9. android布局时长分析,Android性能优化:布局优化 详细解析(含、、讲解 )
  10. 分布式事务及分布式系统一致性解决方案
  11. 【疾病分类】基于matlab GUI模糊逻辑分类叶病严重程度分级系统【含Matlab源码 194期】
  12. Git基本操作(学习笔记)
  13. 海量数据的常用10大解决方案
  14. 电脑系统重装篇6:使用微PE工具箱制作U盘启动盘并重装系统(WePE)
  15. iOS Podfile修改优化
  16. 联想计计算机电源管理,联想电源管理软件energy manag
  17. 如何使用FreeSSL申请免费证书?
  18. 如何利用线程堆栈定位问题
  19. Windows下如何对声卡音频输出进行录音
  20. python进阶day13

热门文章

  1. php验证码--图片
  2. HDU 1199 amp;amp; ZOJ 2301 线段树离散化
  3. CodeSmith 基础用法和例子
  4. 介绍一款JavaScript播放器 - Dewplayer
  5. HDU 5878 I Count Two Three
  6. DOM与元素节点内联样式
  7. methanol 模块化的可定制的网页爬虫软件,主要的优点是速度快。
  8. 威联通NAS通过宝塔面板实现域名统一端口访问
  9. 51Nod - 1024 矩阵中不重复的元素(数学)
  10. 牛客 - 双流机场(思维)