spark.default.parallelism

参数说明:该参数用于设置每个stage的默认task数量。这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能。

参数调优建议:Spark作业的默认task数量为500~1000个较为合适。很多同学常犯的一个错误就是不去设置这个参数,那么此时就会导致Spark自己根据底层HDFS的block数量来设置task的数量,默认是一个HDFS block对应一个task。通常来说,Spark默认设置的数量是偏少的(比如就几十个task),如果task数量偏少的话,就会导致你前面设置好的Executor的参数都前功尽弃。试想一下,无论你的Executor进程有多少个,内存和CPU有多大,但是task只有1个或者10个,那么90%的Executor进程可能根本就没有task执行,也就是白白浪费了资源!因此Spark官网建议的设置原则是,设置该参数为num-executors * executor-cores的2~3倍较为合适,比如Executor的总CPU core数量为300个,那么设置1000个task是可以的,此时可以充分地利用Spark集群的资源。

spark重要参数调优建议:spark.default.parallelism设置每个stage默认的task数量相关推荐

  1. spark 资源参数调优

    资源参数调优 了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了.所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使 ...

  2. spark原理参数调优

    一.spark原理 参考: Hive on Spark调优_窗外的屋檐-CSDN博客_spark.executor.instancesSpark资源参数调优参数_TURING.DT-CSDN博客_sp ...

  3. 由美团技术文章整理---spark性能优化基础篇--开发调优与资源参数调优

    文章地址1:Spark性能优化指南--基础篇 - 美团技术团队 文章地址2:Spark性能优化指南--高级篇 - 美团技术团队 目录 一.关于性能优化基础篇--开发调优 1.避免创建重复RDD (1) ...

  4. Spark Submit提交及参数调优

    https://www.cnblogs.com/LHWorldBlog/p/8414342.html https://www.cnblogs.com/haoyy/p/6893943.html spar ...

  5. Spark调优:提交job资源参数调优及内存模型调优

    [场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...

  6. Spark系列之Spark的资源调优

    title: Spark系列 第十一章 Spark的资源调优 11.1 概述 ​ 在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在sparksubmit命令中 ...

  7. Spark 中 JVM 内存使用及配置详情、spark报错与调优、Spark内存溢出OOM异常

    一般在我们开发spark程序的时候,从代码开发到上线以及后期的维护中,在整个过程中都需要涉及到调优的问题,即一开始需要考虑如何把代码写的更简洁高效调优(即代码优化),待开发测试完成后,提交任务时综合考 ...

  8. hive sql 报错后继续执行_Hive优化之Spark执行引擎参数调优(二)

    Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能.影响Hive效率的主要有数据 ...

  9. Apache Spark Jobs 性能调优(二)

    Apache Spark Jobs 性能调优(二) 调试资源分配 调试并发 压缩你的数据结构 数据格式 在这篇文章中,首先完成在 Part I 中提到的一些东西.作者将尽量覆盖到影响 Spark 程序 ...

最新文章

  1. 在python中可以使用for作为变量名对吗,在Python中使用循环来命名变量
  2. 李宏毅深度学习——第一天(Bias and Variance)
  3. 初等数论--同余--WILSON定理
  4. NSLog (Log信息的输出)
  5. [渝粤教育] 西南科技大学 英语口语 在线考试复习资料
  6. Java系列笔记(4) - JVM监控与调优【转】
  7. python动物代码大全_python爬虫代码大全
  8. 人造肉公司大受追捧!美国公司Beyond Meat在IPO首日暴涨163%
  9. Quartz.NET实现作业调度
  10. 浅谈TCP/IP协议中TCP与UDP的区别
  11. Android 控件 之 Adapter 基础讲解
  12. 统计学专业词汇英文翻译中英对照总结汇总(贾俊平 统计学 第七版 )
  13. 天涯社区脱水机(TianyaTool) - 实现天涯社区宝箱的只看楼主功能
  14. astah-professional 证书
  15. 电脑怎么设置微信定位服务器,电脑版微信,一个很简单的客户端,许多功能不支持...
  16. Codingame平台“CHUCK NORRIS”的实现
  17. 离线百度地图嵌入开发
  18. suse linux enterprise 11 密码,图解SUSE Linux Enterprise Server 11 SP4安装教程
  19. 超级计算机排名2019世界500强,2019年全球超级计算机500强名单: TOP500排名速度如何变化?...
  20. 电脑开机自检过程都有什么?

热门文章

  1. opencv精要(3)-win下codelite的opencv配置
  2. rust(53)-智能指针
  3. 【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。
  4. 【Python】用 Highcharts 绘制饼图,也很强大
  5. 【机器学习基础】理解关联规则算法
  6. 【机器学习基础】一文读懂用于序列标注的条件随机场(CRF)模型
  7. 【深度学习】深入理解LSTM
  8. 我所认识的数据产品经理(文末有彩蛋)
  9. 【推荐系统】协同过滤 零基础到入门
  10. 【论文解读】图像超分最新记录!南洋理工提出图神经网络嵌入新思路,复原效果惊艳...