spark的并行度对spark的性能是又很大的影响的,spark任务能快速计算主要就是因为内存计算和并行计算。
对于并行计算,我们就要涉及到并行度的问题,那并行度跟什么有关系呢?

  1. 源数据
  • hdfs文件
    读取hdfs文件的时候是跟block块相关的,有几个 block就有几个分区去执行任务。
  • 数据库
    数据库是可以设置分区读取数据的(见文章:spark分区读取数据库)
    在此设置几个分区读取数据库,就会产生几个分区执行后续的任务。
  1. spark.default.parallelism
    设置rdd默认的并行度,这个参数要是不设置的话默认是200。
    正常设置的大小为spark任务申请的总core的2到3倍,即num-excutor*excuor_cores*(2 or 3)
    但是这个参数不会在rdd计算的时候就会生效,比如rdd.map(x => x.mkString(,))
    只有遇到shuffle的时候才会生效,比如rdd.reduceByKey(_+_)
  2. spark.sql.shuffle.partitions,这个时候就不会生效。
    设置sparksql默认的并行度,可以一定程度解决数据倾斜的问题。
    但是跟parallelism类似,也是要遇到shuffle的时候才会生效,比如join、group…
    如果只是遇到未shuffl的sql语句,是不会生效的。

spark并行度(parallelism)和分区(partition)未生效的问题相关推荐

  1. 【Flink】flink并行度与kafka分区(partition)设置

    1.概述 默认: [Flink]FlinkConsumer是如何保证一个partition对应一个thread的 当分区与并行度不一样呢? 2.原理 采用取模运算:平衡 kafka partition ...

  2. 从spark.default.parallelism参数来看Spark并行度、并行计算任务概念

    1 并行度概念理解 并行度:并行度= partition= task总数.但是同一时刻能处理的task数量由并行计算任务决定(CPU cores决定). 并行度(Parallelism)指的是分布式数 ...

  3. Spark分区 partition 详解

    一.前提 每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,,每个File都包含了很多块,(128M切分),称为Block. 当Spar ...

  4. 谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解

    谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解 spark.sql.shuffle.partitio ...

  5. Spark中的spark.sql.shuffle.partitions 和spark.default.parallelism参数设置默认partition数目

    当不跟随父对象partition数目的shuffle过程发生后,结果的partition会发生改变,这两个参数就是控制这类shuffle过程后,返回对象的partition的 经过实测,得到结论: s ...

  6. 关于Spark默认并行度spark.default.parallelism的理解

    spark.default.parallelism是指RDD任务的默认并行度,Spark中所谓的并行度是指RDD中的分区数,即RDD中的Task数. 当初始RDD没有设置分区数(numPartitio ...

  7. streaming优化:spark.default.parallelism调整处理并行度

    官方是这么说的: Cluster resources can be under-utilized if the number of parallel tasks used in any stage o ...

  8. 计算质数通过分区(Partition)提高Spark的运行性能(转载+自己理解)

    这篇博客是对[1]的进一步详细描述 自己的配置是台式机一台+笔记本组成spark集群 #-------------------------------------------------------- ...

  9. Spark并行度的设定

    今天有同事问起Spark中spark.default.parallelism参数的意义,以及该如何设置.故在这里留个记录,算是做个小结. Spark并行度设置的相关因素 Spark并行度的设置在Spa ...

最新文章

  1. nexus 离线下载中央库索引
  2. 无异常日志,就不能排查问题了???
  3. 基于AI探索表观遗传药物发现的化学空间
  4. 《深入理解计算机系统》读书笔记七:浮点数表示
  5. 面试时被问到「有没有职业规划时」,要怎么回答?
  6. netbeans搭建安卓开发环境
  7. 如何通过 Python 和 OpenCV 实现目标数量监控?
  8. c# Net XML文档(2,2)中有错误
  9. 共享一个从字符串转 Lambda 表达式的类(2)
  10. 黄淮学院计算机专业录取分数线2019,黄淮学院2020年录取分数线(附2017-2020年分数线)...
  11. Win10外接显示频黑屏解决
  12. ImageJ的自动二值算法C++实现
  13. oracle用户登录提示: user test lacks create session privilege logon denied
  14. 《给中国学生的第四封信:大学四年应是这样度过》
  15. 炫酷按钮《html》
  16. SafePoint是什么
  17. 【NHOI2018】跳伞登山赛
  18. 零基础制作平衡小车【连载】12---平衡小车控制原理
  19. 写给程序员的数理科普:混沌与三体
  20. 十级孤独你能承受几级?

热门文章

  1. 与国同庆--单片机小白自制蓝牙避障小车
  2. 关于javascript,[object,object]是什么?
  3. 展讯Sprd设置-电池-UI
  4. 国外酷站设计:15个带给你灵感的作品集网站
  5. 移动互联网开发技术教学网站项目研究综述
  6. 人体神经的作用与功能,人的神经系统的作用
  7. Android组件系列——Content Provider
  8. 偶遇Trojan.AVKill.19646
  9. 清除Trojan.PSW.WoWar.qq等木马
  10. linux添加mx25l25645g,stm32驱动NOR Flash 之MX25L51245G(64MB)