Hadoop之ReduceTask工作机制
Hadoop之ReduceTask工作机制
目录
- 设置ReduceTask并行度(个数)
- 注意
- 实验:测试reducetask多少合适
- ReduceTask工作机制
1. 设置ReduceTask并行度(个数)
reducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置:
//默认值是1,手动设置为4
job.setNumReduceTasks(4);
2. 注意
- reducetask=0 ,表示没有reduce阶段,输出文件个数和map个数一致。
- reducetask默认值就是1,所以输出文件个数为一个。
- 如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜
- reducetask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个reducetask。
- 具体多少个reducetask,需要根据集群性能而定。
- 如果分区数不是1,但是reducetask为1,是否执行分区过程。答案是:不执行分区过程。因为在maptask的源码中,执行分区的前提是先判断reduceNum个数是否大于1。不大于1肯定不执行。
3. 实验:测试reducetask多少合适
- 实验环境:1个master节点,16个slave节点:CPU:8GHZ,内存: 2G
- 实验结论:
4. ReduceTask工作机制
Hadoop之ReduceTask工作机制相关推荐
- ReduceTask工作机制
ReduceTask工作机制图示 ReduceTask工作机制流程 1. Copy阶段 ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘 ...
- B05 - 048、ReduceTask工作机制
初学耗时:0.5h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 一.ReduceTask工作机制 1.1 整个 Reduce阶段流程. 1.2 简单概述. ...
- MapTask运行机制详解以及Map任务的并行度,ReduceTask 工作机制以及reduceTask的并行度,MapReduce总体工作机制
MapTask运行机制详解 整个Map阶段流程大体如图所示 简单概述 inputFile通过split被逻辑切分为多个split文件, 通过Record按行读取内容给map(用户自己实现的)进行处理, ...
- Hadoop之Yarn工作机制详解
Hadoop之Yarn工作机制详解 目录 Yarn概述 Yarn基本架构 Yarn工作机制 作业提交全过程详解 1. Yarn概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于 ...
- Hadoop之MapTask工作机制
Hadoop之MapTask工作机制 目录 并行度决定机制 MapTask工作机制 1. 并行度决定机制 问题引出 maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度 ...
- Hadoop之DataNode工作机制
Hadoop之DataNode工作机制 目录 DataNode工作机制 数据完整性 掉线时限参数设置 1. DataNode工作机制 DataNode工作机制如下图 一个数据块在DataNode上以文 ...
- 【hadoop】HDFS-HA工作机制
一.HA概述 1)所谓HA(High Available),即高可用(7*24小时不中断服务). 2)实现高可用最关键的策略是消除单点故障.HA严格来说应该分成各个组件的HA机制:HDFS的HA和YA ...
- Hadoop大数据分布式文件系统hdfs的工作机制
HDFS集群分为两大角色:NameNode.DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块 namenode工作机制 namenode职责: ...
- 王家林 云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程...
这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程. 通过HDFS的心跳来测试repl ...
最新文章
- Linux命令之more
- linq to sql实战
- 数学之美笔记(二十)
- 详细讲述STP过程【转自56cto.com】
- python常用代码_Python常用算法学习(3)(原理+代码)——最全总结
- LeetCode 1769. 移动所有球到每个盒子所需的最小操作数(前缀和)
- 高清接口芯片---gv7600、sii9135
- mysql-workbench 导入csv格式数据报错:Unhandled exception: Could not determine delimiter
- android布局时长分析,Android性能优化:布局优化 详细解析(含、、讲解 )
- 分布式事务及分布式系统一致性解决方案
- 【疾病分类】基于matlab GUI模糊逻辑分类叶病严重程度分级系统【含Matlab源码 194期】
- Git基本操作(学习笔记)
- 海量数据的常用10大解决方案
- 电脑系统重装篇6:使用微PE工具箱制作U盘启动盘并重装系统(WePE)
- iOS Podfile修改优化
- 联想计计算机电源管理,联想电源管理软件energy manag
- 如何使用FreeSSL申请免费证书?
- 如何利用线程堆栈定位问题
- Windows下如何对声卡音频输出进行录音
- python进阶day13