MapReduce端的二次排序以及对移动计算而不是移动数据的理解
,
1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍,第一遍是在map端执行,针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候,达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的,所以我们的数据在硬盘上可以sort排序,而且在map执行完任务之后数据就不见了),那么当程序执行到reduce之后,reduce端shuffle首先会将各个map端的数据都抓取到reduce端的内存缓冲区中,等达到内存缓冲区的80%的时候就会溢出到硬盘,硬盘作为内存缓冲区,在这里会第二次执行我们写的sort排序,也就是二次排序!这就是有名的二次排序!
2.不要再认为sort+group是二次排序了,group的作用就是一次性将同一组数据交给一个reduce任务处理!
3.这里需要强调的是:map任务不是随随便便地分配给某个TaskTracker的,这里有个概念叫:数据本地化(Data-Local)。意思是:将map任务分配给含有该map处理的数据块的TaskTracker上,同时将程序JAR包复制到该TaskTracker上来运行,这叫“运算移动,数据不移动”。而分配reduce任务时并不考虑数据本地!
上面也就是说,移动计算而不是移动数据实际上是针对shuffle之前的map端而言的,而不是针对reduce端而言的!
MapReduce端的二次排序以及对移动计算而不是移动数据的理解相关推荐
- hadoop之MapReduce自定义二次排序流程实例详解
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求 ...
- hadoop二次排序
二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果. 这里主要讲如何使用一个Mapreduce就可以实现二次排序.Hadoop有自带的Second ...
- 大数据【四】MapReduce(单词计数;二次排序;计数器;join;分布式缓存)
前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分 ...
- MapReduce自定义二次排序流程
每一条记录开始是进入到map函数进行处理,处理完了之后立马就入自定义分区函数中对其进行分区,当所有输入数据经过map函数和分区函数处理完之后,就调用自定义二次排序函数对其进行排序. MapReduce ...
- Hadoop Mapreduce分区、分组、二次排序过程详解
2019独角兽企业重金招聘Python工程师标准>>> 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partition ...
- Hadoop Mapreduce分区、分组、二次排序过程详解[转]
徐海蛟 教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - par ...
- Mapreduce的排序、全排序以及二次排序
一:背景 Hadoop中虽然有自动排序和分组,由于自带的排序是按照Key进行排序的,有些时候,我们希望同时对Key和Value进行排序.自带的排序功能就无法满足我们了,还好Hadoop提供了一些组件可 ...
- 详细讲解MapReduce二次排序过程
2019独角兽企业重金招聘Python工程师标准>>> 我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了 ...
- MapReduce二次排序
2019独角兽企业重金招聘Python工程师标准>>> 默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用 ...
- mapreduce的二次排序 SecondarySort
mapreduce的二次排序 SecondarySort 关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyCompa ...
最新文章
- lispbox 安装运行.sh的时候出现 lispbox.sh: 2: lispbox.sh: Bad substitution
- CASE WHEN 高阶用法?
- 完美搞定《DOCKER IN ACTION》第二章示例
- Linux学习之系统编程篇:与产生信号有关的函数
- 用模版实现简单的内存池
- [vue-cli]vue-cli3你有使用过吗?它和2.x版本有什么区别?
- LeetCode 296. 最佳的碰头地点(坐标独立+中位数的地方最近)
- python 二叉树递归时明明已经得到了结果,但是返回None
- css三种引入方式以及其优先级的说法
- 电脑控制手机屏幕软件_手机屏幕如何投屏到电脑
- 数据库存储I/O类型分析与配置
- Google地图接口API之Google地图 API 参考手册(七)
- 机器学习-支持向量机原理
- r语言平均值显著性检验_用R语言解读统计检验-F检验
- 105套抖音快闪模板
- 3ds Max随堂笔记 材质和贴图
- 【R语言】Studio的下载及安装及RStudio打开后空白的解决
- Android攻城狮认识ContextMenu
- mysql semi join详解_MySQL中的semi-join
- 东北育才 d1t1 优雅的序列