规约Combiner

每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是MapReduce 的一种优化手段之一

combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件

combiner 组件的父类就是 Reducer

combiner 和 reducer 的区别在于运行的位置

Combiner 是在每一个 maptask 所在的节点运行
Reducer 是接收全局所有 Mapper 的输出结果

combiner 的意义就是对每一个 maptask 的输出进行局部汇总,以减小网络传输量

实现步骤

1. 自定义一个 combiner 继承 Reducer,重写 reduce 方法

2. 在 job 中设置 job.setCombinerClass(CustomCombiner.class)

combiner 能够应用的前提是不能影响最终的业务逻辑,而且,combiner 的输出 kv 应该跟 reducer 的输入 kv 类型要对应起来

MapReduce-Combiner规约-原理分析相关推荐

  1. Hadoop 4、Hadoop MapReduce的工作原理

    一.MapReduce的概念 MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框就是mapreduce,两者缺一不可,也就是 ...

  2. Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...

  3. Java8 并行流(parallelStream)原理分析及注意事项

    文章目录 前言 一.parallelStream是什么 二.parallelStream原理分析 1.Fork/Join框架 1.1 work-stealing(工作窃取算法) 1.2 常用方法 2. ...

  4. java signature 性能_Java常见bean mapper的性能及原理分析

    背景 在分层的代码架构中,层与层之间的对象避免不了要做很多转换.赋值等操作,这些操作重复且繁琐,于是乎催生出很多工具来优雅,高效地完成这个操作,有BeanUtils.BeanCopier.Dozer. ...

  5. Select函数实现原理分析

    转载自 http://blog.chinaunix.net/uid-20643761-id-1594860.html select需要驱动程序的支持,驱动程序实现fops内的poll函数.select ...

  6. spring ioc原理分析

    spring ioc原理分析 spring ioc 的概念 简单工厂方法 spirng ioc实现原理 spring ioc的概念 ioc: 控制反转 将对象的创建由spring管理.比如,我们以前用 ...

  7. 一次 SQL 查询优化原理分析(900W+ 数据,从 17s 到 300ms)

    点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试文章 来源:Muscleape jianshu.com/p/0768eb ...

  8. 原理分析_变色近视眼镜原理分析

    随着眼镜的发展,眼镜的外型变得越来越好看,并且眼镜的颜色也变得多姿多彩,让佩戴眼镜的你变得越来越时尚.变色近视眼镜就是由此产生的新型眼镜.变色镜可以随着阳光的强弱变换不同的色彩. 变色眼镜的原理分析 ...

  9. jieba分词_从语言模型原理分析如何jieba更细粒度的分词

    jieba分词是作中文分词常用的一种工具,之前也记录过源码及原理学习.但有的时候发现分词的结果并不是自己最想要的.比如分词"重庆邮电大学",使用精确模式+HMM分词结果是[&quo ...

最新文章

  1. 女面试官:我拉链开了你怎么提醒我?
  2. 15、url反向解析和别名及命名空间
  3. 一个链表创建、反转、打印的C语言代码
  4. ubuntu 16.04 安装MySQL Workbench
  5. 从Wiesloch火车站到SAP Walldorf总部的交通方式
  6. Scheme N皇后
  7. UVA - 455 Periodic Strings【字符串】
  8. richtextbox自动滚动到最下面_Axure RP 9教程:banner轮播最简单的实现方法
  9. mysql8.0windows,Windows下mysql 8.0.12 安装详细教程
  10. 升级思科WLC firmware详细步骤
  11. pyspark--用法
  12. 【音视频知识】各种音视频编解码学习详解
  13. 一键在线生成朋友圈转发点赞截图教程
  14. 用计算机弹奏的成都,抖音成都怎么用计算器弹奏_抖音成都计算器乐谱_管理资源吧...
  15. 简单理解网络分层模型--向计算机网络迈一小jio;还会有后续;
  16. 【Leetcode】1101. The Earliest Moment When Everyone Become Friends
  17. mac 下 python 批量删除 PDF 中的某些页面
  18. 打开excel提示损坏的映像的解决办法
  19. 五个了解自己天赋优势的分析工具(一)霍兰德兴趣测试
  20. 为什么登出网页浏览器重定向到/login?logout

热门文章

  1. 2016猴年春节有感
  2. exp/imp三种模式——完全、用户、表
  3. Eclipse用户使用IntelliJ IDEA的常见问答
  4. 已有打开的与此 Command 相关联的 DataReader,必须首先将它关闭
  5. SSIS数据转换组件_复制转换、数据转换、行计数
  6. 【Java线程】多线程实现简单的一对一聊天
  7. 独家解读 | 滴滴机器学习平台架构演进之路
  8. XML配置里的Bean自动装配与Bean之间的关系
  9. 谈Elasticsearch下分布式存储的数据分布
  10. MySQL + Atlas 部署读写分离