spark.sql.shuffle.partitions和 spark.default.parallelism 的区别

首先两者最直观的区别:
spark.default.parallelism只有在处理RDD时有效.
spark.sql.shuffle.partitions则是只对SparkSQL有效.
看一下官网给出的两者定义:

以我的四级水准乱翻译一下:
spark.sql.shuffle.partitions: 设置的是 RDD1做shuffle处理后生成的结果RDD2的分区数.
默认值: 200
spark.default.parallelism: 设置的是 RDD1做shuffle处理/并行处理(窄依赖算子)后生成的结果RDD2的分区数
默认值:
对于分布式的shuffle算子, 默认值使用了结果RDD2所依赖的所有父RDD中分区数最大的, 作为自己的分区数.
对于并行处理算子(窄依赖的), 有父依赖的, 结果RDD分区数=父RDD分区数, 没有父依赖的看集群配置:
Local mode:给定的core个数
Mesos fine grained mode: 8
Others: max(RDD分区数为总core数, 2)

spark并行度的理解

并行度其实就是指的是spark作业中, 各个stage的taskset中的task的数量, 代表了spark作业中各个阶段的并行度, 而taskset中的task数量 = task任务的父RDD中分区数

如何设置spark.sql.shuffle.partitions和spark.default.parallelism的值

官网建议: 设置为当前spark job的总core数量的2~3倍. 理由如下:
背景: spark作业是 1 core 1 task的
假设我们给当前Spark job 设置总Core数为 100, 那么依据1 core 1 task, 当前spark集群中最多并行运行100task任务, 那么通过设置上述两个参数为100, 使得我们结果RDD的分区数为100, 一个分区 1task 1core, 完美! 但是实际生产中会有这样的情况, 100个task中有些task的处理速度快, 有些处理慢, 假设有20个task很快就处理完毕了, 此时就会出现我们集群中有20个core处理闲置状态, 不符合spark官网所说的最大化压榨集群能力.
而如果我们设置上述参数值为199, 此时的现象: 虽然集群能并行处理199个task, 奈何总core只有100, 所以会出现有99个task处于等待处理的情况. 处理较快的那20task闲置下来的20个core就可以接着运行99个中的20个task, 这样就最大化spark集群的计算能力

谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解相关推荐

Spark中的spark.sql.shuffle.partitions 和spark.default.parallelism参数设置默认partition数目
当不跟随父对象partition数目的shuffle过程发生后,结果的partition会发生改变,这两个参数就是控制这类shuffle过程后,返回对象的partition的经过实测,得到结论: s ...
spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别
在关于spark任务并行度的设置中,有两个参数我们会经常遇到,spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什 ...
由spark.sql.shuffle.partitions混洗分区浅谈下spark的分区
背景 spark的分区无处不在,但是编程的时候又很少直接设置,本文想通过一个例子说明从spark读取数据到内存中后的分区数,然后经过shuffle操作后的分区数,最后再通过主动设置repartitio ...
sparksql set spark.sql.shuffle.partitions
在sparksql做join时发现,虽然在这里设置了sparksql的shuffle为1200,但是从实际来看并没有效果– 查了一些资料后发现如果在脚本设置了上图所示的conf,即开启动态分区,那么s ...
Spark 之 Shuffle
Shuffle 在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个分区上去聚合和处理. Spark 中的 Shuffle 操作的特点只有 Key-Value ...
Spark SQL玩起来
标签(空格分隔): Spark [toc] 前言 Spark SQL的介绍只包含官方文档的Getting Started.DataSource.Performance Tuning和Distribut ...
Spark sql优化
缓存数据可以将df或ds进行缓存(cache方法persist方法) 默认存储级别memory_and_disk 参数调优可以通过配置下表中的参数调节Spark SQL的性能. Property ...
从spark.default.parallelism参数来看Spark并行度、并行计算任务概念
1 并行度概念理解并行度:并行度= partition= task总数.但是同一时刻能处理的task数量由并行计算任务决定(CPU cores决定). 并行度(Parallelism)指的是分布式数 ...
大数据之Spark（四）：Spark SQL
一.SparkSQL的发展 1.1 概述 SparkSQL是Spark⽣态体系中的构建在SparkCore基础之上的⼀个基于SQL的计算模块. SparkSQL的前身不叫SparkSQL,⽽叫Shar ...

谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解

谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解

spark.sql.shuffle.partitions和 spark.default.parallelism 的区别

spark并行度的理解

如何设置spark.sql.shuffle.partitions和spark.default.parallelism的值

谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解相关推荐

最新文章

热门文章