是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰

Benchmark: 对1G数据做wordcount
部分内容:
*********************************
硬件级别
提高磁盘IO的性能
noatime  我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时间

client端设置
map与reduce task数量
map task的数量由split的数量决定,split的数据越小,每个map task执行的时间就越短,但相应地, job的执行时间就拉长了, 因为内部调度的时间更长了
benchmark:
之前是67个map task,平均执行时间是16秒, job完成时间接近7分钟
后来map task变成265个, 平均每个map task执行8秒,但job完成时间差不多12分钟

reduce task的数量由client来设置
我测试的结果client设置result task略大于或等于集群reduce slot, 当然这是整个集群只有一个job在执行的情况下,当有多个job执行时, 网上的建议是少于集群reduce slots总量
集群reduce slots数量是4,我设置reduce数量成8的时候,每个reduce执行的很快,shuffle过程也短,最终job完成时间差不多是7分钟,而设 置为2时,shuffle时间很长,job完成时间为12分钟.当我再设置为4个reduce task时, 执行时间差不多8分钟

后来我又做了三个长时间job并发运行的测试,结果显示纵使有很多个map slot在运行, 两台slaves的CPU与内存利用率不是很离谱, 但不同的场景应该有不同的设置,主要还是根据slave的负载来决定. 查看slave机器的负载可使用top命令
*********************************

橙色: 正常的调优点,试验后有正常的反应
红色: 不可理喻的地方,与正常的想法相违背
黄色: 可有可无的地方,只是试验了,不推荐使用

调优是基于Hadoop 0.21版本。

转载于:https://www.cnblogs.com/captain_ccc/articles/4107807.html

MapReduce:Job性能调优总结相关推荐

  1. Hadoop性能调优概要说明

    Hadoop容易遇到的问题有:Namenode/jobtracker单点故障.HDFS小文件问题.数据处理性能等.为此 "Hadoop Performance Optimization&qu ...

  2. Solr 基础性能调优讲解

    本篇文章我们来了解一下solr的性能方面的调优,分为Schema优化.索引更新与提交调优.索引合并性能调优.Solr缓存.Solr查询性能优化 Schema优化 1.index=true比index= ...

  3. Apache Spark Jobs 性能调优(二)

    Apache Spark Jobs 性能调优(二) 调试资源分配 调试并发 压缩你的数据结构 数据格式 在这篇文章中,首先完成在 Part I 中提到的一些东西.作者将尽量覆盖到影响 Spark 程序 ...

  4. Apache Spark Jobs 性能调优(一)

    Apache Spark Jobs 性能调优(一) Spark 是如何执行程序的 选择正确的 Operator 什么时候不发生 Shuffle 什么情况下 Shuffle 越多越好 二次排序 结论 当 ...

  5. Hadoop性能调优

      Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优. 一 应用程序编写规范 1.设置Combiner         对于一大批MapRedu ...

  6. Hadoop性能调优总结

    目的 随着企业要处理的数据量越来越大,Hadoop运行在越来越多的集群上,同时MapReduce由于具有高可扩展性和容错性,已经逐步广泛使用开来.因此也产生很多问题,尤其是性能方面的问题.这里从管理员 ...

  7. 大数据培训:Spark性能调优与参数配置

    Spark性能调优-基础篇 众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...

  8. Hive性能调优实战 分享

    获取方式 链接:https://pan.baidu.com/s/1TmkWssL1K45af7GDrj2QWw 提取码:26uv 关注我的公众号[宝哥大数据],更多干货 目录 第1章 举例感受Hive ...

  9. 大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

    大数据技术之_19_Spark学习_07 第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则 1.1.2 性能监控方式 1.1.3 调优要点 1.2 数据倾斜优化 1.2. ...

最新文章

  1. 乔布斯 18 岁求职信拍卖价 22.24 万美元,值吗?
  2. 为什么Redis内存不宜过大
  3. mysql 手工注入教程_mysql手工注入步骤
  4. 电池报废征兆,三招辨别该不该换新
  5. laravel-admin配置安装完新手使用
  6. 利用Math.random做背景图像随机切换【前端开发技能必备系列】
  7. Madplay移植到mini2440开发板【转】
  8. C++获取当前系统时间并格式化输出
  9. 广东 职称英语计算机,现在评职称英语和计算机都不用考了
  10. git完全cli指南之详细思维导图整理分享
  11. 腰椎患者多运动好,还是多休息好?
  12. verilog 生成块_Verilog数字系统设计教程之学习摘要
  13. vs2017安装qt
  14. atitit.软件与sql设计模式原理与本质 大总结attialx总结v6 qc26.docx
  15. JAVA的Random类(转)
  16. JSP实用教程(3)——JSP内置对象
  17. Web 方向学习路线
  18. Notepad++下载markdown viewer plugin
  19. WiFi管理帧(四)(TWT)
  20. VA虚拟平台十大亮点

热门文章

  1. mysql修改表的备注信息_修改mysql 数据库的 表的列的备注信息
  2. 信息安全工程师笔记-综合知识冲刺(二)
  3. C++|Qt笔记-关于extern和namespace的区别与联系
  4. Linux学习笔记-消息队列的接收
  5. C/C++无限关机(提权例子)
  6. linux添加定时器防抖,linux驱动2.3按键中断-定时器防抖
  7. VisualStudio解决方案配置Debug和Release选项
  8. android d弹框顶部突出,TextView + Tablayout实现顶部菜单栏效果
  9. QScrollArea 详解
  10. Apollo配置中心热加载mysql_Apollo 配置中心部署注意事项