B05 - 048、ReduceTask工作机制
初学耗时:0.5h
注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。
一、ReduceTask工作机制
1.1 整个 Reduce阶段流程。
1.2 简单概述。
1.3 详细步骤。
记忆词:
ReduceTask工作机制
B05 - 999、大数据组件学习② - Hadoop
ギ 舒适区ゾ || ♂ 累觉无爱 ♀
一、ReduceTask工作机制
1.1 ~ 整个 Reduce 阶段流程。
1.2 ~ 简单概述。
- Reduce 大致分为 copy、sort、reduce 三个阶段,重点在前两个阶段。
- copy阶段包含一个 eventFetcher 来获取已完成的 map 列表,由 Fetcher 线程去 copy数据,在此过程中会启动两个 merge 线程,分别为 inMemoryMerger 和onDiskMerger,分别将内存中的数据 merge 到磁盘和将磁盘中的数据进行 merge。待数据 copy 完成之后,copy 阶段就完成了,开始进行 sort 阶段,sort 阶段主要是执行 finalMerge 操作,纯粹的 sort 阶段,完成之后就是 reduce 阶段,调用用户定义的 reduce 函数进行处理。
1.3 ~ 详细步骤。
1.3.1 . 第一阶段。
- Copy 阶段,简单地拉取数据。Reduce 进程启动一些数据 copy 线程(Fetcher),通过 HTTP 方式请求 maptask 获取属于自己的文件。
1.3.2 . 第二阶段。
Merge 阶段。这里的 merge 如 map 端的 merge 动作,只是数组中存放的是不同 map 端 copy 来的数值。
Copy 过来的数据会先放入内存缓冲区中,这里的缓冲区大小要比 map 端的更为灵活。merge 有三种形式:内存到内存;内存到磁盘;磁盘到磁盘。默认情况下第一种形式不启用。
当内存中的数据量到达一定阈值,就启动内存到磁盘的 merge。
与 map 端类似,这也是溢写的过程,这个过程中如果你设置有 Combiner,也是会启用的,然后在磁盘中生成了众多的溢写文件。
第二种 merge 方式一直在运行,直到没有 map 端的数据时才结束,然后启动第三种磁盘到磁盘的 merge 方式生成最终的文件。
1.3.3 . 第三阶段。
- 把分散的数据合并成一个大的数据后,还会再对合并后的数据排序。
1.3.4 . 第四阶段。
- 对排序后的键值对调用 reduce 方法,键相等的键值对调用一次 reduce 方法,每次调用会产生零个或者多个键值对,最后把这些输出的键值对写入到 HDFS文件中。
独在异乡为异客,每逢佳节倍思亲。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
^ 至此,ReduceTask工作机制完成。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
※ 世间诱惑何其多,坚定始终不动摇。
在关系R和S自然连接时,把原本应该舍弃的元组放在结果关系中,这种操作称为________。
…
外连接
独在异乡为异客,每逢佳节倍思亲。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。
我知道我的不足,我也知道你的挑剔,但我就是我,不一样的烟火,谢谢你的指指点点,造就了我的点点滴滴:)!
独在异乡为异客,每逢佳节倍思亲。
B05 - 048、ReduceTask工作机制相关推荐
- ReduceTask工作机制
ReduceTask工作机制图示 ReduceTask工作机制流程 1. Copy阶段 ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘 ...
- Hadoop之ReduceTask工作机制
Hadoop之ReduceTask工作机制 目录 设置ReduceTask并行度(个数) 注意 实验:测试reducetask多少合适 ReduceTask工作机制 1. 设置ReduceTask并行 ...
- MapTask运行机制详解以及Map任务的并行度,ReduceTask 工作机制以及reduceTask的并行度,MapReduce总体工作机制
MapTask运行机制详解 整个Map阶段流程大体如图所示 简单概述 inputFile通过split被逻辑切分为多个split文件, 通过Record按行读取内容给map(用户自己实现的)进行处理, ...
- Yarn基本架构和工作机制
Yarn基本架构和工作机制 概念 Yarn基本架构 ResourceManager (RM)作用 NodeManager (NM)作用 ApplicationMaster (AM)作用 contain ...
- MapRdeuceYarn的工作机制(YarnChild是什么)
MapRdeuce&Yarn的工作机制 一幅图解决你所有的困惑 那天在集群中跑一个MapReduce的程序时,在机器上jps了一下发现了每台机器中有好多个YarnChild.困惑什么时Yarn ...
- Yarn在MapReduce中的工作机制
目录 前言: 1.YARN概述 2.mapreduce&yarn的工作机制 总结: 目录 前言: 在了解Yarn在MR中的作用的时候需要先了解Yarn是什么. 1.YARN概述 Yarn是一个 ...
- hadoop--Yarn资源调度器的基础架构、工作机制 与 作业提交全过程
目录 一.Yarn资源调度器 Yarn 基础架构 二.YARN工作机制 三.作业提交全过程 1. HDFS.YARN.MapReduce三者关系 2. 作业提交过程(YARN) 3. 作业提交过程(H ...
- 大数据之-Hadoop3.x_MapReduce_ReduceTask工作机制并行度---大数据之hadoop3.x工作笔记0125
然后我们继续看一下maptask的工作机制,这个前面也有提过了, 可以看到左边是maptask处理完的数据,然后到了reduceTask阶段,会首先把数据 拉取过来当然,是按照分区拉取的对吧.这是co ...
- 【MapReduce】MapReduce工作机制
一个mapreduce作业,一般分为两阶段执行:map阶段和reduce阶段,下面分别对这两阶段进行介绍. Map阶段 Map阶段又分为五部分:读取文件阶段,MapTask阶段,collect阶段,溢 ...
最新文章
- OpenCV离散傅立叶变换
- GitHub Alibaba Group 下 Star 最多的开源项目是?
- [转]Sql Server 分页存储过程
- a律13折线pcm编码例题_a律13折线pcm编码例题
- python不同目录调用_python3 不同目录间模块调用
- Android入门第七篇之ListView (二)
- [JavaME]利用java.util.TimerTask来做Splash Screen的N种方法
- 网吧版XP系统制作与优化终极版(转)
- [Android] Compile a CWM recovery from JellyBean
- 宝石争霸如何保存进度
- 南大计算机学硕复试,2017年南京大学计算机科学与技术系考研复试名单
- tan和cot的梗_cot和tan的关系
- 老板问指标下降了,我到底应该怎么分析?!
- linux下的清屏方法
- C语言开发必会 宏定义、宏函数
- js使用策略模式实现表单验证
- javascript制作gif动图----gif.js
- mapbox pbf vt2geojson 解析pbf图层为geojson格式
- Pytest框架系列——配置文件Pytest.ini
- 分表、分库、分片和分区
热门文章
- intel服务器e5系列,以后都没有Xeon E5/E7了,Intel正式发布Xeon Scalable系列处理器
- 大学金融学要学计算机语言吗,低学历不要进金融行业 为什么千万不要学金融...
- 好未来赚数倍,大跌前又精准提前离场:高瓴张磊的核心投资方法论到底是什么?
- [附源码]计算机毕业设计springboot交通事故档案管理系统
- python 异步文件读写_Python中使用asyncio 封装文件读写
- 计算机毕业设计JavaHTML5运河古城网站(源码+系统+mysql数据库+lw文档)
- python正则表达式匹配开头,正则表达式系列(一):匹配开头与结尾
- 标量量化和矢量量化实验
- 2022-10-28: 测试代码流程
- 电脑各种中英文信息对照及错误信息总汇 系统出错信息及解决方案