MapReduce:Job性能调优总结
是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰
Benchmark: 对1G数据做wordcount
部分内容:
*********************************
硬件级别
提高磁盘IO的性能
noatime 我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时间
client端设置
map与reduce task数量
map task的数量由split的数量决定,split的数据越小,每个map task执行的时间就越短,但相应地, job的执行时间就拉长了, 因为内部调度的时间更长了
benchmark:
之前是67个map task,平均执行时间是16秒, job完成时间接近7分钟
后来map task变成265个, 平均每个map task执行8秒,但job完成时间差不多12分钟
reduce task的数量由client来设置
我测试的结果client设置result task略大于或等于集群reduce slot, 当然这是整个集群只有一个job在执行的情况下,当有多个job执行时, 网上的建议是少于集群reduce slots总量
集群reduce slots数量是4,我设置reduce数量成8的时候,每个reduce执行的很快,shuffle过程也短,最终job完成时间差不多是7分钟,而设 置为2时,shuffle时间很长,job完成时间为12分钟.当我再设置为4个reduce task时, 执行时间差不多8分钟
后来我又做了三个长时间job并发运行的测试,结果显示纵使有很多个map slot在运行, 两台slaves的CPU与内存利用率不是很离谱, 但不同的场景应该有不同的设置,主要还是根据slave的负载来决定. 查看slave机器的负载可使用top命令
*********************************
橙色: 正常的调优点,试验后有正常的反应
红色: 不可理喻的地方,与正常的想法相违背
黄色: 可有可无的地方,只是试验了,不推荐使用
调优是基于Hadoop 0.21版本。
转载于:https://www.cnblogs.com/captain_ccc/articles/4107807.html
MapReduce:Job性能调优总结相关推荐
- Hadoop性能调优概要说明
Hadoop容易遇到的问题有:Namenode/jobtracker单点故障.HDFS小文件问题.数据处理性能等.为此 "Hadoop Performance Optimization&qu ...
- Solr 基础性能调优讲解
本篇文章我们来了解一下solr的性能方面的调优,分为Schema优化.索引更新与提交调优.索引合并性能调优.Solr缓存.Solr查询性能优化 Schema优化 1.index=true比index= ...
- Apache Spark Jobs 性能调优(二)
Apache Spark Jobs 性能调优(二) 调试资源分配 调试并发 压缩你的数据结构 数据格式 在这篇文章中,首先完成在 Part I 中提到的一些东西.作者将尽量覆盖到影响 Spark 程序 ...
- Apache Spark Jobs 性能调优(一)
Apache Spark Jobs 性能调优(一) Spark 是如何执行程序的 选择正确的 Operator 什么时候不发生 Shuffle 什么情况下 Shuffle 越多越好 二次排序 结论 当 ...
- Hadoop性能调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优. 一 应用程序编写规范 1.设置Combiner 对于一大批MapRedu ...
- Hadoop性能调优总结
目的 随着企业要处理的数据量越来越大,Hadoop运行在越来越多的集群上,同时MapReduce由于具有高可扩展性和容错性,已经逐步广泛使用开来.因此也产生很多问题,尤其是性能方面的问题.这里从管理员 ...
- 大数据培训:Spark性能调优与参数配置
Spark性能调优-基础篇 众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...
- Hive性能调优实战 分享
获取方式 链接:https://pan.baidu.com/s/1TmkWssL1K45af7GDrj2QWw 提取码:26uv 关注我的公众号[宝哥大数据],更多干货 目录 第1章 举例感受Hive ...
- 大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例
大数据技术之_19_Spark学习_07 第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则 1.1.2 性能监控方式 1.1.3 调优要点 1.2 数据倾斜优化 1.2. ...
最新文章
- 乔布斯 18 岁求职信拍卖价 22.24 万美元,值吗?
- 为什么Redis内存不宜过大
- mysql 手工注入教程_mysql手工注入步骤
- 电池报废征兆,三招辨别该不该换新
- laravel-admin配置安装完新手使用
- 利用Math.random做背景图像随机切换【前端开发技能必备系列】
- Madplay移植到mini2440开发板【转】
- C++获取当前系统时间并格式化输出
- 广东 职称英语计算机,现在评职称英语和计算机都不用考了
- git完全cli指南之详细思维导图整理分享
- 腰椎患者多运动好,还是多休息好?
- verilog 生成块_Verilog数字系统设计教程之学习摘要
- vs2017安装qt
- atitit.软件与sql设计模式原理与本质 大总结attialx总结v6 qc26.docx
- JAVA的Random类(转)
- JSP实用教程(3)——JSP内置对象
- Web 方向学习路线
- Notepad++下载markdown viewer plugin
- WiFi管理帧(四)(TWT)
- VA虚拟平台十大亮点
热门文章
- mysql修改表的备注信息_修改mysql 数据库的 表的列的备注信息
- 信息安全工程师笔记-综合知识冲刺(二)
- C++|Qt笔记-关于extern和namespace的区别与联系
- Linux学习笔记-消息队列的接收
- C/C++无限关机(提权例子)
- linux添加定时器防抖,linux驱动2.3按键中断-定时器防抖
- VisualStudio解决方案配置Debug和Release选项
- android d弹框顶部突出,TextView + Tablayout实现顶部菜单栏效果
- QScrollArea 详解
- Apollo配置中心热加载mysql_Apollo 配置中心部署注意事项