32查运行内存的map文件_Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比

本文首先介绍Spark中的两个配置参数:

spark.shuffle.file.buffer   map端内存缓冲
spark.shuffle.memoryFraction   reduce端内存占比

很多博客会说上面这两个参数是调节Spark shuffle性能的利器，实际上并不是这样的。

以实际的生产经验来说，这两个参数没有那么重要，往往来说shuffle的性能不是因为这方面的原因决定的，但是整体来说还是有一点点效果的。

这两个shuffle调优的小点能带来一些性能的提升，与其他调优小点结合起来最终可以会有可以看见的还算不错的性能调优的效果。

默认情况下shuffle的map task输出到磁盘文件的时候，统一都会先写入每个task自己关联的一个内存缓冲区。这个缓冲区大小，默认是32kb。

每一次，当内存缓冲区满溢之后，才会进行spill操作，溢写操作，溢写到磁盘文件中去。

reduce端task拉取到数据之后会用hashmap这种数据格式来对各个key对应的values进行汇聚。针对每个key对应的values执行我们自定义的聚合函数的代码，比如_ + _（把所有values累加起来）。

reduce task在进行汇聚、聚合等操作的时候使用的就是自己对应的executor的内存，默认executor内存中划分给reduce task进行聚合的比例，是0.2。

问题来了，因为默认比例是0.2，理论上很有可能会出现拉取过来的数据很多导致在内存中放不下，内存无法放下的数据，都被spill（溢写）到磁盘文件中去了。

原理说完之后，来看一下默认情况下不调优会出现什么样的问题

默认配置下map端内存缓冲是每个task，32kb。

默认配置下reduce端聚合内存比例，是0.2，也就是20%。

如果map端的task处理的数据量比较大而配置的内存缓冲大小是固定的可能会出现什么样的情况？

每个task处理320kb时总共会向磁盘溢写320 / 32 = 10次。

每个task处理32000kb时总共会向磁盘溢写32000 / 32 = 1000次。

在map task处理的数据量比较大的情况下，而你的task的内存缓冲默认是比较小的（32kb）。可能会造成多次的map端往磁盘文件的spill溢写操作，发生大量的磁盘IO，从而降低性能。

reduce端聚合内存占比默认是0.2。如果数据量比较大，reduce task拉取过来的数据很多，那么就会频繁发生reduce端聚合内存不够用，频繁发生spill操作溢写到磁盘上去。而且最致命的是，磁盘上溢写的数据量越大后面在进行聚合操作的时候很可能会多次读取磁盘中的数据进行聚合。

默认不调优，在数据量比较大的情况下，可能频繁地发生reduce端的磁盘文件的读写。

这两个点之所以放在一起说是因为他们俩是有关联的。数据量变大，map端肯定会出点问题；reduce端肯定也会出点问题；出的问题是一样的：都是磁盘IO频繁，影响性能。

调优方案如下：

调节map task内存缓冲：spark.shuffle.file.buffer

调节reduce端聚合内存占比：spark.shuffle.memoryFraction

在实际生产环境中，我们在什么时候来调节两个参数？

看Spark UI，如果采用的是standalone模式，可以通过SparkUI查看每个stage的详情，有哪些executor，task ？每个task的shuffle write和shuffle read的量，shuffle的磁盘和内存，读写的数据量；如果是用的yarn模式来提交，可以从yarn的界面进去，点击对应的application，进入Spark UI，查看详情。

如果发现shuffle 磁盘的write和read很大。这个时候，就意味着最好调节一些shuffle的参数。进行调优。首先当然是考虑开启map端输出文件合并机制。

调节的时候的原则：spark.shuffle.file.buffer，每次扩大一倍，然后看看效果，64，128；spark.shuffle.memoryFraction，每次提高0.1，看看效果。

不能调节的太大，太大了以后过犹不及，因为内存资源是有限的，你这里调节的太大了，其他环节的内存使用就会有问题了。

调节了以后效果如何？map task内存缓冲变大了，减少spill到磁盘文件的次数；reduce端聚合内存变大了，减少spill到磁盘的次数，而且减少了后面聚合读取磁盘文件的数量。

往期回顾:

码农铲屎官：Spark Shuffle调优之合并map端输出文件zhuanlan.zhihu.com

码农铲屎官：Spark性能调优之资源分配zhuanlan.zhihu.com

码农铲屎官：Flink开发的7点建议zhuanlan.zhihu.com

码农铲屎官：Flink state 使用的4点建议zhuanlan.zhihu.com

码农铲屎官：4个角度轻松理解 Flink中的Watermarkzhuanlan.zhihu.com

码农铲屎官：3种Flink State Backend | 你该用哪个？zhuanlan.zhihu.com

码农铲屎官：Flink方案设计中的4大误区zhuanlan.zhihu.com

码农铲屎官：Flink实现固定时长或消息条数的触发器zhuanlan.zhihu.com

码农铲屎官：详解 Flink 异步 IOzhuanlan.zhihu.com

32查运行内存的map文件_Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比相关推荐

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例
大数据技术之_19_Spark学习_07 第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则 1.1.2 性能监控方式 1.1.3 调优要点 1.2 数据倾斜优化 1.2. ...
一文搞清楚 Spark shuffle 调优
Spark shuffle 调优 Spark 基于内存进行计算,擅长迭代计算,流式处理,但也会发生shuffle 过程.shuffle 的优化,以及避免产生 shuffle 会给程序提高更好的性能.因 ...
Spark shuffle调优
Spark shuffle是什么 Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD.也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分 ...
spark调优（一）-开发调优，数据倾斜，shuffle调优
主要分为开发调优.资源调优.数据倾斜调优.shuffle调优几个部分. 开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础:数据倾斜调优,主要讲解了一套 ...
Spark性能优化：Shuffle调优篇
Spark性能优化:Shuffle调优篇一.调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO.序列化.网络数据传输等操作.因此,如果要让作业的性 ...
Spark性能优化之-shuffle调优
文章目录概述 ShuffleManager发展概述 HashShuffleManager运行原理未经优化的HashShuffleManager 优化后的HashShuffleManager Sor ...
美团如何缓解数据倾斜与shuffle调优
原文来自美团技术博客继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化指南>的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决 ...
ceph分布式文件存储性能调优
ceph分布式文件存储性能调优一.硬件调优二.BIOS配置三.网络配置四.OS配置五.硬盘调度算法六.软件层面七.ceph参数调优一.硬件调优 1.NVMe SSD 调优 ● 目的为 ...
32查运行内存的map文件_linux内存管理
概念先行先理解内存管理中的几个概念:内存,主存,缓存,外存,虚拟内存,物理内存,虚拟地址,物理地址外存: 计算机的外部存储,比如硬盘(机械硬盘.固态硬盘.混合硬盘),usb 内存: 用于计算机运行 ...

32查运行内存的map文件_Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比

32查运行内存的map文件_Spark Shuffle调优之调节map端内存缓冲与reduce端内存占比相关推荐

最新文章

热门文章