MapReduce的并行执行效率

参考：http://blog.csdn.net/facingthesuncn/article/details/8915441

从搭好Hadoop集群之后，再上面跑了一些程序，由于数据量较小，得到实验结果的时间也还可以忍受，因此也就没有关注MapReduce并行执行效率这方面的问题。后来跑了几个大的数据集，都发现非常的慢，于是就不得不关系效率方面的问题了。

查看任务管理器的时候发现有很多处理器是没有利用的，只有一两个的利用率较高，与我们对MapReduce的直觉相差很大，于是问了一个一直在研究Hadoop的同学，发现我们的配置文件是有问题的。MapReduce是通过slot来配置map/reduce capacity的（下图中矩形框框出的，Occupied Map/Reduce Slots显示的是在运行时实际占用了Capacity中的多少）。Hadoop默认情况下，map/reduce capacity都为2，因此，CPU的利用率不高，整个集群的并行执行效率也不高。

因此，需要在$HADOOP_HOME/conf/mapred-site.xml文件中进行配置，具体配置如下：

[html] view plaincopy

<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>12</value>
<description>The maximum number of map tasks that will be run
simultaneously by a task tracker.
</description>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>6</value>
<description>The maximum number of reduce tasks that will be run
simultaneously by a task tracker.
</description>
</property>

具体该将capacity设置为多少合适呢？这里可能要参考集群机器具体的硬件配置了。一般的，可以将Map Task Capacity设置为CPU的核心数，现在CPU每个核一般都会有多个线程（在任务管理器里会体现为多个核），设置中所参考的核心数是不包括这些线程虚拟出来的多核的。Reduce Task Capacity一般设置为Map Task Capacity的1/2或者1/4。

在我们的设置中，Map Task Capacity = CPU核心数，其实，Map Task Capacity + Reduce Task Capacity = CPU核心数 - 2比较好。因为我们的集群环境网速比较快，用户比较少，就没有给多个用户的并行放余量。设置时，需要考虑清楚这些情况

MapReduce的并行执行效率相关推荐

分布式离线计算—MapReduce—为什么被淘汰了？
原文作者:蔡元楠原文地址:为什么MapReduce会被硅谷一线公司淘汰?time.geekbang.org 目录超大规模数据处理的技术发展为什么MapReduce会被取代推荐阅读: 每次和来 ...
mapreduce文本排序_MapReduce：通过数据密集型文本处理
mapreduce文本排序自上次发布以来已经有一段时间了,因为我一直忙于Coursera提供的一些课程. 有一些非常有趣的产品,值得一看. 前一段时间,我购买了Jimmy Lin和Chris Dye ...
MapReduce：通过数据密集型文本处理
自上次发布以来已经有一段时间了,因为我一直在忙于Coursera提供的一些课程. 有一些非常有趣的产品,值得一看. 前一段时间,我购买了Jimmy Lin和Chris Dyer的MapReduce数据 ...
mapreduce复制连接的代码_MapReduce：在大型集群上简化数据处理（2）
特别说明这是一个由simviso团队所组织进行的基于mit分布式系统课程翻译的系列,由知秋带领和其他成员一起翻译的课程以及课程当中涉及的论文翻译. 由于微信排版功能有限,想要看最新版文档的小伙伴,请 ...
MapReduce之Partitioner的理解
我们知道在执行map任务的时候,会将key/value写入内存或者磁盘. 这个时候我们在往内存写数据的时候,会根据key创建分区. 问题一:为什要创建分区? 我们如果文件很大,我们只使用一个reduc ...
mapreduce优化总结
集群的优化 1.合理分配map和reduce任务的数量(单个节点上map任务.reduce任务的最大数量) 2.其他配置 io.file.buffer.size hadoop访问文件的IO操作都需要通 ...
hadoop生态圈面试精华之MapReduce(二)
hadoop生态圈面试精华之MapReduce(二) shuGle为什么要排序? 问过的一些公司:携程(2021.09),网易有道(2021.09) 参考答案: shuffle排序,按字典顺序排序的, ...
MapReduce: Simplified Data Processing on Large Clusters_中文翻译
MapReduce: Simplified Data Processing on Large Clusters (作为大数据处理的经典文献,个人在学习的过程中参考其它译文进行翻译: 参考译文: htt ...
mapreduce为什么被淘汰了？
作者:极客时间链接:https://www.zhihu.com/question/303101438/answer/655475086 来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商 ...

MapReduce的并行执行效率

MapReduce的并行执行效率相关推荐

最新文章

热门文章