spark并行度(parallelism)和分区(partition)未生效的问题
spark的并行度对spark的性能是又很大的影响的,spark任务能快速计算主要就是因为内存计算和并行计算。
对于并行计算,我们就要涉及到并行度的问题,那并行度跟什么有关系呢?
- 源数据
- hdfs文件
读取hdfs文件的时候是跟block块相关的,有几个 block就有几个分区去执行任务。 - 数据库
数据库是可以设置分区读取数据的(见文章:spark分区读取数据库)
在此设置几个分区读取数据库,就会产生几个分区执行后续的任务。
- spark.default.parallelism
设置rdd默认的并行度,这个参数要是不设置的话默认是200。
正常设置的大小为spark任务申请的总core的2到3倍,即num-excutor*excuor_cores*(2 or 3)
但是这个参数不会在rdd计算的时候就会生效,比如rdd.map(x => x.mkString(,))
只有遇到shuffle的时候才会生效,比如rdd.reduceByKey(_+_)
- spark.sql.shuffle.partitions,这个时候就不会生效。
设置sparksql默认的并行度,可以一定程度解决数据倾斜的问题。
但是跟parallelism类似,也是要遇到shuffle的时候才会生效,比如join、group…
如果只是遇到未shuffl的sql语句,是不会生效的。
spark并行度(parallelism)和分区(partition)未生效的问题相关推荐
- 【Flink】flink并行度与kafka分区(partition)设置
1.概述 默认: [Flink]FlinkConsumer是如何保证一个partition对应一个thread的 当分区与并行度不一样呢? 2.原理 采用取模运算:平衡 kafka partition ...
- 从spark.default.parallelism参数来看Spark并行度、并行计算任务概念
1 并行度概念理解 并行度:并行度= partition= task总数.但是同一时刻能处理的task数量由并行计算任务决定(CPU cores决定). 并行度(Parallelism)指的是分布式数 ...
- Spark分区 partition 详解
一.前提 每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,,每个File都包含了很多块,(128M切分),称为Block. 当Spar ...
- 谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解
谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解 spark.sql.shuffle.partitio ...
- Spark中的spark.sql.shuffle.partitions 和spark.default.parallelism参数设置默认partition数目
当不跟随父对象partition数目的shuffle过程发生后,结果的partition会发生改变,这两个参数就是控制这类shuffle过程后,返回对象的partition的 经过实测,得到结论: s ...
- 关于Spark默认并行度spark.default.parallelism的理解
spark.default.parallelism是指RDD任务的默认并行度,Spark中所谓的并行度是指RDD中的分区数,即RDD中的Task数. 当初始RDD没有设置分区数(numPartitio ...
- streaming优化:spark.default.parallelism调整处理并行度
官方是这么说的: Cluster resources can be under-utilized if the number of parallel tasks used in any stage o ...
- 计算质数通过分区(Partition)提高Spark的运行性能(转载+自己理解)
这篇博客是对[1]的进一步详细描述 自己的配置是台式机一台+笔记本组成spark集群 #-------------------------------------------------------- ...
- Spark并行度的设定
今天有同事问起Spark中spark.default.parallelism参数的意义,以及该如何设置.故在这里留个记录,算是做个小结. Spark并行度设置的相关因素 Spark并行度的设置在Spa ...
最新文章
- nexus 离线下载中央库索引
- 无异常日志,就不能排查问题了???
- 基于AI探索表观遗传药物发现的化学空间
- 《深入理解计算机系统》读书笔记七:浮点数表示
- 面试时被问到「有没有职业规划时」,要怎么回答?
- netbeans搭建安卓开发环境
- 如何通过 Python 和 OpenCV 实现目标数量监控?
- c# Net XML文档(2,2)中有错误
- 共享一个从字符串转 Lambda 表达式的类(2)
- 黄淮学院计算机专业录取分数线2019,黄淮学院2020年录取分数线(附2017-2020年分数线)...
- Win10外接显示频黑屏解决
- ImageJ的自动二值算法C++实现
- oracle用户登录提示: user test lacks create session privilege logon denied
- 《给中国学生的第四封信:大学四年应是这样度过》
- 炫酷按钮《html》
- SafePoint是什么
- 【NHOI2018】跳伞登山赛
- 零基础制作平衡小车【连载】12---平衡小车控制原理
- 写给程序员的数理科普:混沌与三体
- 十级孤独你能承受几级?
热门文章
- 与国同庆--单片机小白自制蓝牙避障小车
- 关于javascript,[object,object]是什么?
- 展讯Sprd设置-电池-UI
- 国外酷站设计:15个带给你灵感的作品集网站
- 移动互联网开发技术教学网站项目研究综述
- 人体神经的作用与功能,人的神经系统的作用
- Android组件系列——Content Provider
- 偶遇Trojan.AVKill.19646
- 清除Trojan.PSW.WoWar.qq等木马
- linux添加mx25l25645g,stm32驱动NOR Flash 之MX25L51245G(64MB)