用户角度:
hadoop参数调优:
core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,根据实际应用场景对参数进行配置,比如io.seqfile.compress.blocksize(块压缩时块的最小块大小),dfs.block.size(每个文件块的大小,默认是64M,对于大型文件可以设置为128M)。

常用参数设置:
(1).reduce个数设置:
A.如果reduce个数设置太小,单个reducetask执行速度很慢,出错重新调试的时间比较多
B.如果reduce个数设置太大,shuffle开销及调度开销很大,job输出大量文件,影响后续job的执行
C.推荐的reduce个数。单个reducetask处理数据量介于1G-10G之间,reduce的个数要少于map的个数
实验数据如下:

(2).压缩中间数据,用cpu换磁盘和网络,设置mapred.compress.map.output设为true
A.减少磁盘操作
B.减少网络传输数量\

Hadoop作业调度调优
hadoop参数的配置只是静态的对集群性能做优化,在job运行的时候无法动态的修改配置文件并使之生效。下面考虑动态性能调优。
作业调度:
调整作业调度算法:FIFO,公平调度算法,计算能力调度算法

Hadoop(MapReduce)程序编写调优
1.正确配置集群
如果是一大批mr程序,可以设置一个combiner,combiner可以减少maptask中间的输出结果,从而减少redece的远程拷贝数据量。
2.使用LZO压缩
当一个job需要输出大量数据时,应用LZO压缩可以提高输出端的输出性能。默认情况下每个文件的输出都会保存3个副本,1GB的输出文件将保存3GB的磁盘数据,采用压缩后更能节省空间并提高性能。为了使LZO压缩有效,请设置参数mapred.compress.map.output值为true。
3.合理设置map和reduce的数量
4.设置combiner
mapreduce的combiner是为了避免map任务和reduce任务之间的数据传输而设置的。

1)数据输入小文件处理:

(1)合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储在SequenceFile文件。

(2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景

(3)对于大量小文件job,可以开启jvm重用。

2)Map阶段

(1)增大环形缓冲区的大小。由100m扩大到200m

(2)增大环形缓冲区的溢写比例。有80%扩大到90%

(3)减少对溢写文件的merge次数.(10个文件,一次20个merge)

(4)不影响实际业务的前提下,采用Combiner提前合并,减少IO

3)Reduce阶段

(1)合理设置Map和Reduce数:两个都不能设置太少,也不能设置太多。太少,会导致Task等待,延长处理时间;太多会导致Map、Reduce任务间竞争资源,造成处理超时等错误。

(2)设置Map、Reduce共存;调整slowstart.completedmaps参数,使Map运行到一定程度后,Reduce也开始运行,减少Reduce的等待时间。

(3)规避使用Reduce,因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。

(4)增加每个Reduce去Map中拿数据的并行数

(5)集群性能可以的前提下,增大Reduce端存储数据内存的大小

4)IO传输

(1)采用数据压缩的方式,减少网络IO的时间。安装snappy和LZOP压缩编码器。

(2)使用SequenceFile二进制文件

5)整体

(1)MapTask默认内存为1G,可以增加MapTask内存大小为4-5g

(2)ReduceTask默认内存大小为1G,可以增加ReduceTask内存大小为4-5g

(3)可以增加MapTask的cpu核数,增加ReduceTask的CPU核数

(4)增加每个Container的CPU核数和内存大小

(5)调整每个MapTask和ReduceTask最大重试次数

参数调优

1)在hdfs-site.xml文件中配置多目录,最好提前配置好,否则更改目录需要重新启动集群

2)NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。dfs.namenode.hander.count=20*log2(Cluster Size),比如集群规模为10台时,此参数设置为60

3)编辑日志存储路径dfs.namenode.edits.dir设置与镜像文件存储路径dfs.namenode.name.dir尽量分开,达到最低写入延迟

4)服务器节点上YARN可使用物理内存总量,默认是8192MB,如果你的节点内存资源不够8G,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。yarn.nodemanager.resource.memory-mb

5)单个任务可申请的最多物理内存量,默认是8192M。yarn.scheduler.maximumallocation-mb

hadoop性能优化(调优)相关推荐

  1. SAP ABAP性能优化 - 调优工具 SM50 | ST05 | SAT

    更多内容关注公众号:SAP Technical 各位可以关注我的公众号:SAP Technical SAP系统提供了许多性能调优的工具,在本篇博客中,我将介绍下最常用的三种工具也即SM50, ST05 ...

  2. NFS性能优化/调优

    NFS优化分为server端和client端 server: #mount参数设置noatime #修改 tcp_slot_table_entries=128client: timeo测试tool: ...

  3. 性能测试瓶颈分析与系统调优(9)java程序GC机制及性能稳定性调优分析

    8.1 jvm资源监控工具 8.1.1jconsole监控工具 jmap:此工具在jdk安装目录的bin文件夹里面 jmap [option]<pid> 例如:jmap -heap 603 ...

  4. weblogic java虚拟机_weblogic server 性能及调优-调优 java 虚拟机.doc

    weblogic server 性能及调优-调优 java 虚拟机.doc 还剩 8页未读, 继续阅读 下载文档到电脑,马上远离加班熬夜! 亲,喜欢就下载吧,价低环保! 内容要点: Sun 已针对 W ...

  5. [java]深入剖析Java性能监控调优视频教程

    课程概述 基于JDK命令行工具的监控 基于JVisualVM的可视化监控 基于Btrace的监控调试 Tomcat性能监控与调优 Nginx性能监控与调优 JVM层GC调优 JVM字节码与Java代码 ...

  6. STS卡顿(一次STS IDE 优化调优记录)

    说在前面的话 前几天在电脑上安装了一款 Spring Boot 专用的开发工具 STS IDE,但是这厮使用起来真的慢的让人不可接受,不但窗口拖动慢,而且运行程序也慢,每次编写完成一个代码块后,一保存 ...

  7. 【转载】软件性能测试分析与调优实践之路-性能分析调优思想与调优技术总结

    本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书<软件性能测试分析与调优实践之路>部分章节归纳. 一.  性能分析与调优思想 1.性能分析调优模型 性能测试除了为获取性能指标 ...

  8. 软件性能测试分析与调优实践之路-性能分析调优思想与调优技术总结

    来源:https://www.cnblogs.com/laoqing/p/13660768.html 本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书<软件性能测试分析与调优实践之 ...

  9. hadoop distcp 参数调优_linux性能调优总结 - 星火撩原

    系统性能一直是个热门话题.做运维这几年也一直在搞性能调优,写这个文章也算是对工作的总结. 讲调优第一步是,要讲为什么要调优?也就是系统分析,分析还需要有指标,做好性能监控的情况下,看到确实需要调优才能 ...

最新文章

  1. Ubuntu 安装 CUDA 和 cuDNN 详细步骤
  2. 中国电子学会青少年编程能力等级测试图形化一级编程题:小鸡与鸭妈拥抱
  3. 当法律纽带变成“机器红线”,能让自动驾驶汽车更安全吗?
  4. c语言内涵教程,C语言内涵教程练习3参考答案
  5. js:点击button后返回值
  6. jpa root.join_JPA 2.1和Java EE 7中的JPQL增强功能(第1部分– JOIN ON)
  7. 自适应灰色动态滚动网站404页面源码
  8. Service混合开启笔记(startService+bindService)
  9. NumPy 秘籍中文第二版·翻译完成
  10. android中级组件,第3章 Android组件--3.3 Android中级组件【含答案】 Android应用开发基础...
  11. IDEA中解决Edit Configurations中没有tomcat Server选项的问题(附配置Tomcat)
  12. HDU2673 shǎ崽 OrOrOrOrz【排序】
  13. Weblogic下载,安装与插件配置
  14. 天学网 语音算法工程师面经
  15. numpy与scipy安装
  16. wps垂直居中快捷键_word如何设置垂直居中 wpsword设置垂直居中
  17. 关于单片机引脚的别名定义的正确语法
  18. 深度学习图像处理(一)
  19. 酰肼PEG酰肼,HZ-PEG-HZ
  20. 【PBR系列一】PBR知识体系

热门文章

  1. java groovy集成_java与Groovy的整合
  2. 阿里云服务器建站教程
  3. 计算机共享文件误删怎么恢复,在电脑上不小心把共享里的EXCEL表格数据给删除了,该怎么恢复这个文件的数据啊?,excel表格里误删数据恢复...
  4. 应用程序无法启动,因为应用程序的并行配置不正确,有关详细信息,请参阅应用程序事件日志,或使用命令行sxstrace.exe工具
  5. dad my_My dad英语绘本.ppt
  6. 《中国垒球协会》:新春贺词
  7. 安卓_手机卫士_第五天(手机定位,设备管理器,电话归属地)
  8. Win自动配置VS Code的C++开发环境
  9. android 轨迹生成图,Android自定义View实现公交成轨迹图
  10. 完整ASCII字符表