spark重要参数调优建议:spark.default.parallelism设置每个stage默认的task数量
spark.default.parallelism
参数说明
:该参数用于设置每个stage
的默认task
数量。这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能。
参数调优建议
:Spark作业的默认task数量为500~1000
个较为合适。很多同学常犯的一个错误就是不去设置这个参数,那么此时就会导致Spark自己根据底层HDFS的block数量来设置task的数量,默认是一个HDFS block对应一个task。通常来说,Spark默认设置的数量是偏少的(比如就几十个task),如果task数量偏少的话,就会导致你前面设置好的Executor的参数都前功尽弃。试想一下,无论你的Executor进程有多少个,内存和CPU有多大,但是task
只有1个或者10个,那么90%的Executor进程可能根本就没有task执行,也就是白白浪费了资源!因此Spark官网建议的设置原则是,设置该参数为num-executors
* executor-cores
的2~3倍较为合适,比如Executor
的总CPU core
数量为300个,那么设置1000个task是可以的,此时可以充分地利用Spark集群的资源。
spark重要参数调优建议:spark.default.parallelism设置每个stage默认的task数量相关推荐
- spark 资源参数调优
资源参数调优 了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了.所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使 ...
- spark原理参数调优
一.spark原理 参考: Hive on Spark调优_窗外的屋檐-CSDN博客_spark.executor.instancesSpark资源参数调优参数_TURING.DT-CSDN博客_sp ...
- 由美团技术文章整理---spark性能优化基础篇--开发调优与资源参数调优
文章地址1:Spark性能优化指南--基础篇 - 美团技术团队 文章地址2:Spark性能优化指南--高级篇 - 美团技术团队 目录 一.关于性能优化基础篇--开发调优 1.避免创建重复RDD (1) ...
- Spark Submit提交及参数调优
https://www.cnblogs.com/LHWorldBlog/p/8414342.html https://www.cnblogs.com/haoyy/p/6893943.html spar ...
- Spark调优:提交job资源参数调优及内存模型调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
- Spark系列之Spark的资源调优
title: Spark系列 第十一章 Spark的资源调优 11.1 概述 在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在sparksubmit命令中 ...
- Spark 中 JVM 内存使用及配置详情、spark报错与调优、Spark内存溢出OOM异常
一般在我们开发spark程序的时候,从代码开发到上线以及后期的维护中,在整个过程中都需要涉及到调优的问题,即一开始需要考虑如何把代码写的更简洁高效调优(即代码优化),待开发测试完成后,提交任务时综合考 ...
- hive sql 报错后继续执行_Hive优化之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能.影响Hive效率的主要有数据 ...
- Apache Spark Jobs 性能调优(二)
Apache Spark Jobs 性能调优(二) 调试资源分配 调试并发 压缩你的数据结构 数据格式 在这篇文章中,首先完成在 Part I 中提到的一些东西.作者将尽量覆盖到影响 Spark 程序 ...
最新文章
- 在python中可以使用for作为变量名对吗,在Python中使用循环来命名变量
- 李宏毅深度学习——第一天(Bias and Variance)
- 初等数论--同余--WILSON定理
- NSLog (Log信息的输出)
- [渝粤教育] 西南科技大学 英语口语 在线考试复习资料
- Java系列笔记(4) - JVM监控与调优【转】
- python动物代码大全_python爬虫代码大全
- 人造肉公司大受追捧!美国公司Beyond Meat在IPO首日暴涨163%
- Quartz.NET实现作业调度
- 浅谈TCP/IP协议中TCP与UDP的区别
- Android 控件 之 Adapter 基础讲解
- 统计学专业词汇英文翻译中英对照总结汇总(贾俊平 统计学 第七版 )
- 天涯社区脱水机(TianyaTool) - 实现天涯社区宝箱的只看楼主功能
- astah-professional 证书
- 电脑怎么设置微信定位服务器,电脑版微信,一个很简单的客户端,许多功能不支持...
- Codingame平台“CHUCK NORRIS”的实现
- 离线百度地图嵌入开发
- suse linux enterprise 11 密码,图解SUSE Linux Enterprise Server 11 SP4安装教程
- 超级计算机排名2019世界500强,2019年全球超级计算机500强名单: TOP500排名速度如何变化?...
- 电脑开机自检过程都有什么?
热门文章
- opencv精要(3)-win下codelite的opencv配置
- rust(53)-智能指针
- 【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。
- 【Python】用 Highcharts 绘制饼图,也很强大
- 【机器学习基础】理解关联规则算法
- 【机器学习基础】一文读懂用于序列标注的条件随机场(CRF)模型
- 【深度学习】深入理解LSTM
- 我所认识的数据产品经理(文末有彩蛋)
- 【推荐系统】协同过滤 零基础到入门
- 【论文解读】图像超分最新记录!南洋理工提出图神经网络嵌入新思路,复原效果惊艳...