hadoop性能优化(调优)
用户角度:
hadoop参数调优:
core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,根据实际应用场景对参数进行配置,比如io.seqfile.compress.blocksize(块压缩时块的最小块大小),dfs.block.size(每个文件块的大小,默认是64M,对于大型文件可以设置为128M)。
常用参数设置:
(1).reduce个数设置:
A.如果reduce个数设置太小,单个reducetask执行速度很慢,出错重新调试的时间比较多
B.如果reduce个数设置太大,shuffle开销及调度开销很大,job输出大量文件,影响后续job的执行
C.推荐的reduce个数。单个reducetask处理数据量介于1G-10G之间,reduce的个数要少于map的个数
实验数据如下:
(2).压缩中间数据,用cpu换磁盘和网络,设置mapred.compress.map.output设为true
A.减少磁盘操作
B.减少网络传输数量\
Hadoop作业调度调优
hadoop参数的配置只是静态的对集群性能做优化,在job运行的时候无法动态的修改配置文件并使之生效。下面考虑动态性能调优。
作业调度:
调整作业调度算法:FIFO,公平调度算法,计算能力调度算法
Hadoop(MapReduce)程序编写调优
1.正确配置集群
如果是一大批mr程序,可以设置一个combiner,combiner可以减少maptask中间的输出结果,从而减少redece的远程拷贝数据量。
2.使用LZO压缩
当一个job需要输出大量数据时,应用LZO压缩可以提高输出端的输出性能。默认情况下每个文件的输出都会保存3个副本,1GB的输出文件将保存3GB的磁盘数据,采用压缩后更能节省空间并提高性能。为了使LZO压缩有效,请设置参数mapred.compress.map.output值为true。
3.合理设置map和reduce的数量
4.设置combiner
mapreduce的combiner是为了避免map任务和reduce任务之间的数据传输而设置的。
1)数据输入小文件处理:
(1)合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储在SequenceFile文件。
(2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景
(3)对于大量小文件job,可以开启jvm重用。
2)Map阶段
(1)增大环形缓冲区的大小。由100m扩大到200m
(2)增大环形缓冲区的溢写比例。有80%扩大到90%
(3)减少对溢写文件的merge次数.(10个文件,一次20个merge)
(4)不影响实际业务的前提下,采用Combiner提前合并,减少IO
3)Reduce阶段
(1)合理设置Map和Reduce数:两个都不能设置太少,也不能设置太多。太少,会导致Task等待,延长处理时间;太多会导致Map、Reduce任务间竞争资源,造成处理超时等错误。
(2)设置Map、Reduce共存;调整slowstart.completedmaps参数,使Map运行到一定程度后,Reduce也开始运行,减少Reduce的等待时间。
(3)规避使用Reduce,因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。
(4)增加每个Reduce去Map中拿数据的并行数
(5)集群性能可以的前提下,增大Reduce端存储数据内存的大小
4)IO传输
(1)采用数据压缩的方式,减少网络IO的时间。安装snappy和LZOP压缩编码器。
(2)使用SequenceFile二进制文件
5)整体
(1)MapTask默认内存为1G,可以增加MapTask内存大小为4-5g
(2)ReduceTask默认内存大小为1G,可以增加ReduceTask内存大小为4-5g
(3)可以增加MapTask的cpu核数,增加ReduceTask的CPU核数
(4)增加每个Container的CPU核数和内存大小
(5)调整每个MapTask和ReduceTask最大重试次数
参数调优
1)在hdfs-site.xml文件中配置多目录,最好提前配置好,否则更改目录需要重新启动集群
2)NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。dfs.namenode.hander.count=20*log2(Cluster Size),比如集群规模为10台时,此参数设置为60
3)编辑日志存储路径dfs.namenode.edits.dir设置与镜像文件存储路径dfs.namenode.name.dir尽量分开,达到最低写入延迟
4)服务器节点上YARN可使用物理内存总量,默认是8192MB,如果你的节点内存资源不够8G,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。yarn.nodemanager.resource.memory-mb
5)单个任务可申请的最多物理内存量,默认是8192M。yarn.scheduler.maximumallocation-mb
hadoop性能优化(调优)相关推荐
- SAP ABAP性能优化 - 调优工具 SM50 | ST05 | SAT
更多内容关注公众号:SAP Technical 各位可以关注我的公众号:SAP Technical SAP系统提供了许多性能调优的工具,在本篇博客中,我将介绍下最常用的三种工具也即SM50, ST05 ...
- NFS性能优化/调优
NFS优化分为server端和client端 server: #mount参数设置noatime #修改 tcp_slot_table_entries=128client: timeo测试tool: ...
- 性能测试瓶颈分析与系统调优(9)java程序GC机制及性能稳定性调优分析
8.1 jvm资源监控工具 8.1.1jconsole监控工具 jmap:此工具在jdk安装目录的bin文件夹里面 jmap [option]<pid> 例如:jmap -heap 603 ...
- weblogic java虚拟机_weblogic server 性能及调优-调优 java 虚拟机.doc
weblogic server 性能及调优-调优 java 虚拟机.doc 还剩 8页未读, 继续阅读 下载文档到电脑,马上远离加班熬夜! 亲,喜欢就下载吧,价低环保! 内容要点: Sun 已针对 W ...
- [java]深入剖析Java性能监控调优视频教程
课程概述 基于JDK命令行工具的监控 基于JVisualVM的可视化监控 基于Btrace的监控调试 Tomcat性能监控与调优 Nginx性能监控与调优 JVM层GC调优 JVM字节码与Java代码 ...
- STS卡顿(一次STS IDE 优化调优记录)
说在前面的话 前几天在电脑上安装了一款 Spring Boot 专用的开发工具 STS IDE,但是这厮使用起来真的慢的让人不可接受,不但窗口拖动慢,而且运行程序也慢,每次编写完成一个代码块后,一保存 ...
- 【转载】软件性能测试分析与调优实践之路-性能分析调优思想与调优技术总结
本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书<软件性能测试分析与调优实践之路>部分章节归纳. 一. 性能分析与调优思想 1.性能分析调优模型 性能测试除了为获取性能指标 ...
- 软件性能测试分析与调优实践之路-性能分析调优思想与调优技术总结
来源:https://www.cnblogs.com/laoqing/p/13660768.html 本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书<软件性能测试分析与调优实践之 ...
- hadoop distcp 参数调优_linux性能调优总结 - 星火撩原
系统性能一直是个热门话题.做运维这几年也一直在搞性能调优,写这个文章也算是对工作的总结. 讲调优第一步是,要讲为什么要调优?也就是系统分析,分析还需要有指标,做好性能监控的情况下,看到确实需要调优才能 ...
最新文章
- Ubuntu 安装 CUDA 和 cuDNN 详细步骤
- 中国电子学会青少年编程能力等级测试图形化一级编程题:小鸡与鸭妈拥抱
- 当法律纽带变成“机器红线”,能让自动驾驶汽车更安全吗?
- c语言内涵教程,C语言内涵教程练习3参考答案
- js:点击button后返回值
- jpa root.join_JPA 2.1和Java EE 7中的JPQL增强功能(第1部分– JOIN ON)
- 自适应灰色动态滚动网站404页面源码
- Service混合开启笔记(startService+bindService)
- NumPy 秘籍中文第二版·翻译完成
- android中级组件,第3章 Android组件--3.3 Android中级组件【含答案】 Android应用开发基础...
- IDEA中解决Edit Configurations中没有tomcat Server选项的问题(附配置Tomcat)
- HDU2673 shǎ崽 OrOrOrOrz【排序】
- Weblogic下载,安装与插件配置
- 天学网 语音算法工程师面经
- numpy与scipy安装
- wps垂直居中快捷键_word如何设置垂直居中 wpsword设置垂直居中
- 关于单片机引脚的别名定义的正确语法
- 深度学习图像处理(一)
- 酰肼PEG酰肼,HZ-PEG-HZ
- 【PBR系列一】PBR知识体系
热门文章
- java groovy集成_java与Groovy的整合
- 阿里云服务器建站教程
- 计算机共享文件误删怎么恢复,在电脑上不小心把共享里的EXCEL表格数据给删除了,该怎么恢复这个文件的数据啊?,excel表格里误删数据恢复...
- 应用程序无法启动,因为应用程序的并行配置不正确,有关详细信息,请参阅应用程序事件日志,或使用命令行sxstrace.exe工具
- dad my_My dad英语绘本.ppt
- 《中国垒球协会》:新春贺词
- 安卓_手机卫士_第五天(手机定位,设备管理器,电话归属地)
- Win自动配置VS Code的C++开发环境
- android 轨迹生成图,Android自定义View实现公交成轨迹图
- 完整ASCII字符表