初学耗时:0.5h

注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

一、ReduceTask工作机制
  1.1  整个 Reduce阶段流程。
  1.2  简单概述。
  1.3  详细步骤。


记忆词:

  ReduceTask工作机制


 B05 - 999、大数据组件学习② - Hadoop


 ギ 舒适区ゾ || ♂ 累觉无爱 ♀

一、ReduceTask工作机制

  1.1 ~ 整个 Reduce 阶段流程。

  1.2 ~ 简单概述。

  • Reduce 大致分为 copy、sort、reduce 三个阶段,重点在前两个阶段。
  • copy阶段包含一个 eventFetcher 来获取已完成的 map 列表,由 Fetcher 线程去 copy数据,在此过程中会启动两个 merge 线程,分别为 inMemoryMerger 和onDiskMerger,分别将内存中的数据 merge 到磁盘和将磁盘中的数据进行 merge。待数据 copy 完成之后,copy 阶段就完成了,开始进行 sort 阶段,sort 阶段主要是执行 finalMerge 操作,纯粹的 sort 阶段,完成之后就是 reduce 阶段,调用用户定义的 reduce 函数进行处理。

  1.3 ~ 详细步骤。

    1.3.1 .  第一阶段。
  • Copy 阶段,简单地拉取数据。Reduce 进程启动一些数据 copy 线程(Fetcher),通过 HTTP 方式请求 maptask 获取属于自己的文件。
    1.3.2 .  第二阶段。
  • Merge 阶段。这里的 merge 如 map 端的 merge 动作,只是数组中存放的是不同 map 端 copy 来的数值。

  • Copy 过来的数据会先放入内存缓冲区中,这里的缓冲区大小要比 map 端的更为灵活。merge 有三种形式:内存到内存;内存到磁盘;磁盘到磁盘。默认情况下第一种形式不启用。

  • 当内存中的数据量到达一定阈值,就启动内存到磁盘的 merge。

  • 与 map 端类似,这也是溢写的过程,这个过程中如果你设置有 Combiner,也是会启用的,然后在磁盘中生成了众多的溢写文件。

  • 第二种 merge 方式一直在运行,直到没有 map 端的数据时才结束,然后启动第三种磁盘到磁盘的 merge 方式生成最终的文件。

    1.3.3 .  第三阶段。
  • 把分散的数据合并成一个大的数据后,还会再对合并后的数据排序。
    1.3.4 .  第四阶段。
  • 对排序后的键值对调用 reduce 方法,键相等的键值对调用一次 reduce 方法,每次调用会产生零个或者多个键值对,最后把这些输出的键值对写入到 HDFS文件中。

独在异乡为异客,每逢佳节倍思亲。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

^ 至此,ReduceTask工作机制完成。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

※ 世间诱惑何其多,坚定始终不动摇。

在关系R和S自然连接时,把原本应该舍弃的元组放在结果关系中,这种操作称为________。


外连接

独在异乡为异客,每逢佳节倍思亲。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

我知道我的不足,我也知道你的挑剔,但我就是我,不一样的烟火,谢谢你的指指点点,造就了我的点点滴滴:)!

独在异乡为异客,每逢佳节倍思亲。

B05 - 048、ReduceTask工作机制相关推荐

  1. ReduceTask工作机制

    ReduceTask工作机制图示 ReduceTask工作机制流程 1. Copy阶段 ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘 ...

  2. Hadoop之ReduceTask工作机制

    Hadoop之ReduceTask工作机制 目录 设置ReduceTask并行度(个数) 注意 实验:测试reducetask多少合适 ReduceTask工作机制 1. 设置ReduceTask并行 ...

  3. MapTask运行机制详解以及Map任务的并行度,ReduceTask 工作机制以及reduceTask的并行度,MapReduce总体工作机制

    MapTask运行机制详解 整个Map阶段流程大体如图所示 简单概述 inputFile通过split被逻辑切分为多个split文件, 通过Record按行读取内容给map(用户自己实现的)进行处理, ...

  4. Yarn基本架构和工作机制

    Yarn基本架构和工作机制 概念 Yarn基本架构 ResourceManager (RM)作用 NodeManager (NM)作用 ApplicationMaster (AM)作用 contain ...

  5. MapRdeuceYarn的工作机制(YarnChild是什么)

    MapRdeuce&Yarn的工作机制 一幅图解决你所有的困惑 那天在集群中跑一个MapReduce的程序时,在机器上jps了一下发现了每台机器中有好多个YarnChild.困惑什么时Yarn ...

  6. Yarn在MapReduce中的工作机制

    目录 前言: 1.YARN概述 2.mapreduce&yarn的工作机制 总结: 目录 前言: 在了解Yarn在MR中的作用的时候需要先了解Yarn是什么. 1.YARN概述 Yarn是一个 ...

  7. hadoop--Yarn资源调度器的基础架构、工作机制 与 作业提交全过程

    目录 一.Yarn资源调度器 Yarn 基础架构 二.YARN工作机制 三.作业提交全过程 1. HDFS.YARN.MapReduce三者关系 2. 作业提交过程(YARN) 3. 作业提交过程(H ...

  8. 大数据之-Hadoop3.x_MapReduce_ReduceTask工作机制并行度---大数据之hadoop3.x工作笔记0125

    然后我们继续看一下maptask的工作机制,这个前面也有提过了, 可以看到左边是maptask处理完的数据,然后到了reduceTask阶段,会首先把数据 拉取过来当然,是按照分区拉取的对吧.这是co ...

  9. 【MapReduce】MapReduce工作机制

    一个mapreduce作业,一般分为两阶段执行:map阶段和reduce阶段,下面分别对这两阶段进行介绍. Map阶段 Map阶段又分为五部分:读取文件阶段,MapTask阶段,collect阶段,溢 ...

最新文章

  1. OpenCV离散傅立叶变换
  2. GitHub Alibaba Group 下 Star 最多的开源项目是?
  3. [转]Sql Server 分页存储过程
  4. a律13折线pcm编码例题_a律13折线pcm编码例题
  5. python不同目录调用_python3 不同目录间模块调用
  6. Android入门第七篇之ListView (二)
  7. [JavaME]利用java.util.TimerTask来做Splash Screen的N种方法
  8. 网吧版XP系统制作与优化终极版(转)
  9. [Android] Compile a CWM recovery from JellyBean
  10. 宝石争霸如何保存进度
  11. 南大计算机学硕复试,2017年南京大学计算机科学与技术系考研复试名单
  12. tan和cot的梗_cot和tan的关系
  13. 老板问指标下降了,我到底应该怎么分析?!
  14. linux下的清屏方法
  15. C语言开发必会 宏定义、宏函数
  16. js使用策略模式实现表单验证
  17. javascript制作gif动图----gif.js
  18. mapbox pbf vt2geojson 解析pbf图层为geojson格式
  19. Pytest框架系列——配置文件Pytest.ini
  20. 分表、分库、分片和分区

热门文章

  1. intel服务器e5系列,以后都没有Xeon E5/E7了,Intel正式发布Xeon Scalable系列处理器
  2. 大学金融学要学计算机语言吗,低学历不要进金融行业 为什么千万不要学金融...
  3. 好未来赚数倍,大跌前又精准提前离场:高瓴张磊的核心投资方法论到底是什么?
  4. [附源码]计算机毕业设计springboot交通事故档案管理系统
  5. python 异步文件读写_Python中使用asyncio 封装文件读写
  6. 计算机毕业设计JavaHTML5运河古城网站(源码+系统+mysql数据库+lw文档)
  7. python正则表达式匹配开头,正则表达式系列(一):匹配开头与结尾
  8. 标量量化和矢量量化实验
  9. 2022-10-28: 测试代码流程
  10. 电脑各种中英文信息对照及错误信息总汇 系统出错信息及解决方案