为什么80%的码农都做不了架构师?>>>   

MapReduce设计模式(MapReduce Design Pattern)

整个MapReduce作业的阶段主要可以分为以下四种:
  1、Input-Map-Reduce-Output

  2、Input-Map-Output

  3、Input-Multiple Maps-Reduce-Output

  4、Input-Map-Combiner-Reduce-Output
下面我将一一介绍哪种场景使用哪种设计模式。

Input-Map-Reduce-Output

Input➜Map➜Reduce➜Output

如果我们需要做一些聚合操作(aggregation),我们就需要使用这种模式。

场景 计算各性别员工薪水平均值
Map(Key, Value) Key: Gender
Value: Their Salary
Reduce 对Gender进行Group by,并计算每种性别的总薪水

Input-Map-Output

Input➜Map➜Output

如果我们仅仅想改变输入数据的格式,这时候我们可以使用这种模式。

场景 对性别进行处理
Map(Key, Value) Key : Employee Id
Value : Gender ->
if Gender is Female/ F/ f/ 0 then converted to F
else if Gender is Male/M/m/1 then convert to M

Input-Multiple Maps-Reduce-Output

Input1➜Map1➘Reduce➜Output
Input2➜Map2➚

在这种设计模式中,我们有两个输入文件,其文件的格式都不一样,
文件一的格式是性别作为名字的前缀,比如:Ms. Shital Katkar或Mr. Krishna Katkar
文件二的格式是性别的格式是固定的,但是其位置不固定,比如 Female/Male, 0/1, F/M

场景 对性别进行处理
Map(Key, Value) Map 1 (For input 1):我们需要将性别从名字中分割出来,然后根据前缀来确定性别,然后得到 (Gender,Salary)键值对;
Map 2 (For input 2):这种情况程序编写比较直接,处理固定格式的性别,然后得到(Gender,Salary)键值对。
Reduce 对Gender进行Group by,并计算每种性别的总薪水

Input-Map-Combiner-Reduce-Output

Input➜Map➜Combiner➜Reduce➜Output

  在MapReduce中,Combiner也被成为Reduce,其接收Map端的输出作为其输入,并且将输出的 key-value 键值对作为Reduce的输入。Combiner的使用目的是为了减少数据传入到Reduce的负载。

  在MapReduce程序中,20%的工作是在Map阶段执行的,这个阶段也被成为数据的准备阶段,各阶段的工作是并行进行的。

  80%的工作是在Reduce阶段执行的,这个阶段被成为计算阶段,其不是并行的。因此,次阶段一般要比Map阶段要满。为了节约时间,一些在Reduce阶段处理的工作可以在combiner阶段完成。

  假设我们有5个部门(departments),我们需要计算个性别的总薪水。但是计算薪水的规则有点奇怪,比如某个性别的总薪水大于200k,那么这个性别的总薪水需要加上20k;如果某个性别的总薪水大于100k,那么这个性别的总薪水需要加上10k。如下:

Map阶段:

Dept 1: Male<10,20,25,45,15,45,25,20>,Female <10,30,20,25,35>

Dept 2: Male<15,30,40,25,45>,Female <20,35,25,35,40>

Dept 3: Male<10,20,20,40>,Female <10,30,25,70>

Dept 4: Male<45,25,20>,Female <30,20,25,35>

Dept 5: Male<10,20>,Female <10,30,20,25,35>

Combiner阶段:

Dept 1:Male <250,20>,Female <120,10>

Dept 2:Male <155,10>,Female <175,10>

Dept 3:Male <90,00>,Female <135,10>

Dept 4:Male <90,00>,Female <110,10>

Dept 5:Male <30,00>,Female <130,10>

Reduce阶段:

Male< 250,20,155,10,90,90,30>,Female<120,10,175,10,135,10,110,10,130,10>

Output:

Male<645>,Female<720>

以上四种MapReduce模式只是最基本的,我们可以根据自己问题设计不一样的设计模式。
本文翻译自:https://dzone.com/articles/mapreduce-design-patterns

转载于:https://my.oschina.net/jsan/blog/749046

四种常见的MapReduce设计模式相关推荐

  1. 五种常见的PHP设计模式

    2019独角兽企业重金招聘Python工程师标准>>> 五种常见的PHP设计模式 设计模式 一书将设计模式引入软件社区,该书的作者是 Erich Gamma.Richard Helm ...

  2. 移动设计需避免四种常见的用户体验失败

    为什么80%的码农都做不了架构师?>>>    此文是伊甸网转载移动设计顾问 Mariya Yao 的文章. 2012 年移动应用的下载量超过 300 亿,可是智能手机用户平均每周会 ...

  3. 最新开源LiDAR数据集LSOOD:四种常见的室外物体分类

    点云PCL免费知识星球,点云论文速读. 标题:最新开源LiDAR数据集LSOOD:四种常见的室外物体分类 作者:Y Tian 来源:https://github.com/Tian-Yifei/LSOO ...

  4. 四种常见NLP框架使用总结

    作者:哈工大SCIR 狄东林 刘元兴 朱庆福 胡景雯 引言 随着人工智能的发展,越来越多深度学习框架如雨后春笋般涌现,例如PyTorch.TensorFlow.Keras.MXNet.Theano和P ...

  5. (转载)四种常见的 POST 提交数据方式

    转载地址:https://imququ.com/post/four-ways-to-post-data-in-http.html 四种常见的 POST 提交数据方式 HTTP/1.1 协议规定的 HT ...

  6. application/json 四种常见的 POST 提交数据方式

    四种常见的 POST 提交数据方式   HTTP/1.1 协议规定的 HTTP 请求方法有 OPTIONS.GET.HEAD.POST.PUT.DELETE.TRACE.CONNECT 这几种.其中 ...

  7. 四种常见的 POST 提交数据方式对应的content-type取值

    做前后端分离一般都有第3中 , 第一种 基本上jquery那年代用的了 第2种在需要传文件时用的 https://www.cnblogs.com/wushifeng/p/6707248.html 四种 ...

  8. JAVA对象JSON数据互相转换的四种常见情况

    这篇文章主要介绍了JAVA对象JSON数据互相转换的四种常见情况,需要的朋友可以参考下 1. 把java 对象列表转换为json对象数组,并转为字符串 复制代码代码如下:     JSONArray ...

  9. python 释放链表节点_四种常见链表的实现及时间复杂度分析(Python3版)

    四种常见的链表包括:单向链表,单向循环链表,双向链表,双向循环链表. 要实现的链表操作包括 - is_empty() 判断链表是否为空 - length() 求链表长度 - traversing() ...

最新文章

  1. .NET环境下每日集成
  2. linux ifconfig命令配置ip地址
  3. Netty 系列一(核心组件和实例).
  4. boost::hana::detail::type_foldr1用法的测试程序
  5. [CSA35G][XSY3318]Counting Quests (DP)
  6. arm qt mysql插件_编译ARM平台的QtEmbedded的MySQL插件和移植MySQL
  7. 各种数据库的分页查询
  8. java vips 算法_[Java] 22G传智播客java JavaEE+物联云计算 就业班(非基础班) 视频...
  9. 使用共享文件夹实现上位机和下位机的信息传输
  10. python 单词拆音节_实用小技巧,Python一秒将全部中文姓名转为拼音!
  11. mysql重启后应用也要重启_数据库重启后应用也必须重启
  12. 怎样用比较器实现信号的衰减和饱和_水下技术 无人水下航行器在水电站隧洞检查中的应用探讨...
  13. Apache 实现AJAX跨域请求
  14. 谈谈唯一约束和唯一索引
  15. Revit二次开发:修改视图范围
  16. 小程序中的block
  17. Vmware虚拟机下三种网络模式配置
  18. 测试成长小说5 这个锅我不背
  19. ffmpeg处理视频与声音
  20. 杨博超-spring教程-day01-笔记

热门文章

  1. mysql udf禁用_Mysql数据库UDF的安全问题利用
  2. 中文分词_中文分词及其应用
  3. reverse()反转字符串的正确使用方式
  4. Verilog | HDL 音乐流水灯(代码类)
  5. php utf8 html字符,PHP:utf-8编码,htmlentities给出了奇怪的结果
  6. 弱引用使用场景桌面_面试|再次讲解Threadlocal使用及其内存溢出
  7. 喜报!第四范式助推百胜中国斩获2020 IDC数字化转型重磅大奖
  8. 工业用微型计算机(11)-指令系统(8)
  9. linux内核杂记(18)-内核链表结构(2)
  10. 【深度学习】总有些哪些大胆又新奇的卷积网络结构设计