搞架构的人,Google的架构论文是必看的,但好像大家都不愿意去啃英文论文。故把自己的读书笔记,加入自己的思考,分享给大家。

《MapReduce到底解决什么问题?》做了简介,这是第二篇,Google MapReduce优化启示(中)。

什么是MapReduce?

MapReduce这个编程模型解决什么问题?

Google MapReduce是Google产出的一个编程模型,同时Google也给出架构实现。它能够解决“能用分治法解决的问题”。

同时,前文以“统计大量文档中单词出现的个数”为例,例举了如何“先分再合”的撰写map与reduce来解决实际问题。

画外音,强烈建议回顾一下前情提要:

《MapReduce到底解决什么问题?》。

MapReduce的核心思路是:

  • 并行

  • 先分再合

下图简述了MR计算“词频统计”的过程。

从左到右四个部分,分别是:

  • 输入文件

  • 分:M个并行的map计算实例

  • 合:R个并行的reduce计算实例

  • 输出结果

先看最后一步,reduce输出最终结果。

可以看到,R个reduce实例并发进行处理,直接输出最后的计数结果。

实例1输出:(a, 256)(able, 128)(emacs, 1)

实例2输出:(f*ck, 32768) (coding, 65535)

实例3输出:(vim,65535)(x, 16)(zero, 258)

画外音:这就是总结果,可以看到vim比emacs受欢迎很多。

需要理解的是,由于这是业务计算的最终结果,一个单词的计数不会出现在两个实例里。即:如果(a, 256)出现在了实例1的输出里,就一定不会出现在其他实例的输出里。

画外音:否则的话,还需要合并,就不是最终结果了。

再看中间步骤,map到reduce的过程。

可以看到,M个map实例的输出,会作为R个reduce实例的输入。

潜在问题一:每个map都有可能输出(a, 1),而最终结果(a, 256)必须由一个reduce输出,那如何保证每个map输出的同一个key,落到同一个reduce上去呢?

这就是“分区函数”的作用。

什么是分区函数?

分区函数,是使用MapReduce的用户需所实现的,决定map输出的每一个key应当落到哪个reduce上的函数。

画外音:如果用户没有实现,会使用默认分区函数。

以词频统计的应用为例,分区函数可能是:

(1) 以[a-g]开头的key落到第一个reduce实例;

(2) 以[h-n]开头的key落到第二个reduce实例;

(3) 以[o-z]开头的key落到第三个reduce实例;

画外音:有点像数据库水平切分的“范围法”。

分区函数实现要点是什么?

为了保证每一个reduce实例都能够差不多时间结束工作任务,分区函数的实现要点是:尽量负载均衡。

画外音:即数据均匀分摊。

上述词频统计的分区函数,就不是负载均衡的,有些reduce实例处理的单词多,有些reduce处理的单词少,这样就可能出现,所有reduce实例都处理结束,最后等待一个长尾reduce的情况。

对于词频统计,负载更为均衡的分区函数为:

hash(key) % 3

画外音:有点像数据库水平切分的“哈希法”。

潜在问题二:每个map都有可能输出多个(a, 1),这样无形中增大了网络带宽资源,以及reduce的计算资源,有没有办法进行优化呢?

这就是“合并函数”的作用。

什么是合并函数?

有时,map产生的中间key的重复数据比重很大,可以提供给用户一个自定义函数,在一个map实例完成工作后,本地就做一次合并,这样网络传输与reduce计算资源都能节省很多。

合并函数在每个map任务结束前都会执行一次,一般来说,合并函数与reduce函数是一样的,区别是:

  • 合并函数执行map实例本地数据合并

  • reduce函数执行最终的合并,会收集多个map实例的数据

对于词频统计应用,合并函数可以将:

一个map实例的多个(a, 1)合并成一个(a, $count)输出。

最后看第一个个步骤,输入文件到map的过程。

潜在问题三:如何确定文件到map的输入呢?

随意即可,只要负载均衡,均匀切分输入文件大小就行,不用管分到哪个map实例。

画外音:无论分到那个map都能正确处理。

结论

Google MapReduce实施了一系列的优化。

  • 分区函数:保证不同map输出的相同key,落到同一个reduce里

  • 合并函数:在map结束时,对相同key的多个输出做本地合并,节省总体资源

  • 输入文件到map如何切分:随意,切分均匀就行

希望大家对MapReduce的优化思路有一个了解,思路比结论更重要

下章,讲Google MapReduce的工程架构实现。

Google MapReduce有啥巧妙优化?相关推荐

  1. Google MapReduce架构设计

    前情回顾 Google MapReduce到底解决什么问题? Google MapReduce是Google产出的一个编程模型,同时Google也给出架构实现,它能够解决"能用分治法解决的问 ...

  2. Google MapReduce中文版

    英文原文链接: Google Map Reduce 译文原文链接: Google MapReduce中文版 Google MapReduce中文版 译者: alex 摘要 MapReduce是一个编程 ...

  3. Google MapReduce到底解决什么问题?

    第二篇,Google MapReduce架构启示(上). 很多时候,定义清楚问题比解决问题更难. 什么是MapReduce? 它不是一个产品,而是一种解决问题的思路,它有多个工程实现,Google在论 ...

  4. 多种方法巧妙优化数据库

    多种方法巧妙优化数据库 日期:2011/12/24 16:18:01  来源:本站 点击率:330 我要评论(0)字号:T T T        1.没有索引或者没有用到索引(这是查询慢最常见的问题, ...

  5. 五十种巧妙优化SQL Server数据库

    五十种巧妙优化SQL Server数据库的方法:出现性能问题的原因- 没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷). I/O吞吐量小,形成了瓶颈效应. 没有创建计算列导致查询不 ...

  6. 《流量的秘密: Google Analytics网站分析与优化技巧(第3版)》一2.2 网站分析中的cookie...

    本节书摘来自异步社区<流量的秘密: Google Analytics网站分析与优化技巧(第3版)>一书中的第2章,第2.2节,作者[英]Brian Clifton,更多章节内容可以访问云栖 ...

  7. 流量的秘密—Google Analytics网站分析与优化技巧(第2版)

    本文转自蓝鲸的网站分析笔记 文章地址http://bluewhale.cc/2012-05-07/advanced-web-metrics-with-google-analytics-2nd-edit ...

  8. ASO优化:Google Play的关键词ASO优化

    一.概述Google Play在搜索优化中的一些发现: ①标题关键词非常重要. 我们搜索"food"或"eat",搜索结果前列出现团购类.饮食健康类,显然与搜索 ...

  9. 50种方法巧妙优化SQL Server数据库(转载)

    50种方法巧妙优化SQL Server数据库 查询速度慢的原因很多,常见如下几种: 1.没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) 2.I/O吞吐量小,形成了瓶颈效应. 3. ...

最新文章

  1. 链家员工因不满工作调动,怒删公司9TB大数据,获判7年
  2. 一个接口查3张表数据_“离婚冷静期”倒计时,天眼查专业版数据显示我国目前有3万余家婚姻咨询相关企业 北京市最多...
  3. 三星手机怎么恢复删除的图片_手机相册照片突然删除了怎么恢复?这个方法好用...
  4. zabbix聚合图形创建脚本
  5. 外贸网络推广分享让网站文章标题优化效果更好地小技巧!
  6. rocketmq订阅多个主题_RocketMQ 的消息模型
  7. System Center 2012R2之SCVMM云部署SCOM(2-2)
  8. 谷歌浏览器手势_分享一些日常手势[狗头]
  9. Linux下用户、组、权限操作
  10. gephi导入边数据时,和节点数据不在一个工作区
  11. 使用phpqrcode来生成二维码/thinkphp
  12. C语言之测试程序运行时间
  13. Java新职篇:什么是键入程序
  14. 支持64位的打印服务器,使用环境打印服务器是32位,添加共享的计算机是64位
  15. matlab 傅里叶变换频谱
  16. abaqus实例手册_《ABAQUS 6.14超级学习手册》——1.5 ABAQUS帮助文档
  17. 三折线弹塑性滞回模型matlab,考虑屈曲的钢筋滞回模型
  18. 鸿蒙系统手机2020,2020年正式到来,国产手机系统最有希望的华为鸿蒙咋没消息了?...
  19. Puzzle(自认为是模拟)
  20. 最诡异航空事件,幽灵航班包括驾驶人员,所有人都在高空中昏睡!而后整机坠毁!...

热门文章

  1. java.lang.NoSuchMethodError: org.springframework.boot.builder.SpringApplicationBuilder.init([Ljava
  2. 限制mysql服务为本地访问
  3. Maximum Product of Word Lengths
  4. 科学家名言录[人生]
  5. CVX约束中定义中间变量或表达式
  6. 恕我直言,90% 的应用场景都不需要用WebAssembly!
  7. Gossip数据传播协议
  8. IP、子网的详述 ——IP分类、网关地址,子网掩码、子网作用
  9. C++中三种正则表达式比较(C regex,C ++regex,boost regex)
  10. 三维重建学习(1):基础知识:旋转矩阵与旋转向量