1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍,第一遍是在map端执行,针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候,达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的,所以我们的数据在硬盘上可以sort排序,而且在map执行完任务之后数据就不见了),那么当程序执行到reduce之后,reduce端shuffle首先会将各个map端的数据都抓取到reduce端的内存缓冲区中,等达到内存缓冲区的80%的时候就会溢出到硬盘,硬盘作为内存缓冲区,在这里会第二次执行我们写的sort排序,也就是二次排序!这就是有名的二次排序!

2.不要再认为sort+group是二次排序了,group的作用就是一次性将同一组数据交给一个reduce任务处理!

3.这里需要强调的是:map任务不是随随便便地分配给某个TaskTracker的,这里有个概念叫:数据本地化(Data-Local)。意思是:将map任务分配给含有该map处理的数据块的TaskTracker上,同时将程序JAR包复制到该TaskTracker上来运行,这叫“运算移动,数据不移动”。而分配reduce任务时并不考虑数据本地!

上面也就是说,移动计算而不是移动数据实际上是针对shuffle之前的map端而言的,而不是针对reduce端而言的!

MapReduce端的二次排序以及对移动计算而不是移动数据的理解相关推荐

  1. hadoop之MapReduce自定义二次排序流程实例详解

    一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求 ...

  2. hadoop二次排序

    二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果. 这里主要讲如何使用一个Mapreduce就可以实现二次排序.Hadoop有自带的Second ...

  3. 大数据【四】MapReduce(单词计数;二次排序;计数器;join;分布式缓存)

       前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分 ...

  4. MapReduce自定义二次排序流程

    每一条记录开始是进入到map函数进行处理,处理完了之后立马就入自定义分区函数中对其进行分区,当所有输入数据经过map函数和分区函数处理完之后,就调用自定义二次排序函数对其进行排序. MapReduce ...

  5. Hadoop Mapreduce分区、分组、二次排序过程详解

    2019独角兽企业重金招聘Python工程师标准>>> 1.MapReduce中数据流动    (1)最简单的过程:  map - reduce    (2)定制了partition ...

  6. Hadoop Mapreduce分区、分组、二次排序过程详解[转]

    徐海蛟 教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - par ...

  7. Mapreduce的排序、全排序以及二次排序

    一:背景 Hadoop中虽然有自动排序和分组,由于自带的排序是按照Key进行排序的,有些时候,我们希望同时对Key和Value进行排序.自带的排序功能就无法满足我们了,还好Hadoop提供了一些组件可 ...

  8. 详细讲解MapReduce二次排序过程

    2019独角兽企业重金招聘Python工程师标准>>> 我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了 ...

  9. MapReduce二次排序

    2019独角兽企业重金招聘Python工程师标准>>> 默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用 ...

  10. mapreduce的二次排序 SecondarySort

    mapreduce的二次排序 SecondarySort 关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyCompa ...

最新文章

  1. lispbox 安装运行.sh的时候出现 lispbox.sh: 2: lispbox.sh: Bad substitution
  2. CASE WHEN 高阶用法?
  3. 完美搞定《DOCKER IN ACTION》第二章示例
  4. Linux学习之系统编程篇:与产生信号有关的函数
  5. 用模版实现简单的内存池
  6. [vue-cli]vue-cli3你有使用过吗?它和2.x版本有什么区别?
  7. LeetCode 296. 最佳的碰头地点(坐标独立+中位数的地方最近)
  8. python 二叉树递归时明明已经得到了结果,但是返回None
  9. css三种引入方式以及其优先级的说法
  10. 电脑控制手机屏幕软件_手机屏幕如何投屏到电脑
  11. 数据库存储I/O类型分析与配置
  12. Google地图接口API之Google地图 API 参考手册(七)
  13. 机器学习-支持向量机原理
  14. r语言平均值显著性检验_用R语言解读统计检验-F检验
  15. 105套抖音快闪模板
  16. 3ds Max随堂笔记 材质和贴图
  17. 【R语言】Studio的下载及安装及RStudio打开后空白的解决
  18. Android攻城狮认识ContextMenu
  19. mysql semi join详解_MySQL中的semi-join
  20. 东北育才 d1t1 优雅的序列

热门文章

  1. 远程计算机或设备将不接受连接,谷歌浏览器无法上网
  2. 激光导航AGV为何如此受企业青睐?
  3. 全基因组关联分析(GWAS)常见问题(工具,概念,脚本)
  4. js实现浏览器书签收藏
  5. 没完全读懂的《人间失格》
  6. webpack-dev-server是什么
  7. vim 格式化 json 命令
  8. API调用,API传参,面向对接开发,你真的会写接口文档吗?
  9. 【机器学习】机器学习笔记(吴恩达)
  10. python 对 文件内容 搜索_python实现搜索文本文件内容脚本