Spark on Yarn:任务提交参数配置
- 当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。
以下参数配置为例子:
spark-submit
--master yarn-cluster #使用集群调度模式(一般使用这个参数)
--num-executors 132 # executor 数量
--executor-cores 2 #设置单个executor能并发执行task数,根据job设置,推荐值2-16 (这里不是指CPU数,集群不限制CPU使用)
--driver-memory 4g #driver的内存大小,推荐值2-6G,不宜太大
--executor-memory 6g #单个executor的内存大小,根据job需求以及并发数设置,最大不要超过30G
。。。
- 公式:
1、containers的最大值就是spark 设置的 num-executors值 ;
2、实际占用的总的vcores≈(executor-cores)*containers(实际executors)
3、内存计算公式:((实际占用的总的containers)*(executor-memory+512M))+(driver-memory)。
- 以下是我实际执行的情况:
submit.sh
#!/bin/sh spark-submit --master yarn-cluster --class MyMain --num-executors 132 --executor-cores 2 --driver-memory 4g --executor-memory 6g xxx.jar
yarn resoruce manager监控的资源占用结果:
基本上按照上边公式。
参考资料:
Spark On YARN内存分配 https://yq.aliyun.com/articles/25468
spark on yarn - job提交重要参数说明:http://www.tuicool.com/articles/7vuu22b
spark-submit提交参数设置:http://www.cnblogs.com/gnool/p/5643595.html
Spark on Yarn:任务提交参数配置相关推荐
- 大数据培训:Spark性能调优与参数配置
Spark性能调优-基础篇 众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...
- Java代码使用Spark on Yarn 方式提交任务到带Kerberos认证的Hadoop集群
2019独角兽企业重金招聘Python工程师标准>>> 项目中遇到Spark Yarn方式提交到Hadoop集群,访问集群HDFS时发现使用的当前用户,没有访问权限,经过排查后发现H ...
- spark on yarn任务提交及运行完整流程图
- Running Spark on YARN
Running Spark on YARN 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的,后续的版本也一直持续在改进. Launching Spark on ...
- CDH集群中YARN的参数配置
为什么80%的码农都做不了架构师?>>> CDH集群中YARN的参数配置 前言:Hadoop 2.0之后,原先的MapReduce不在是简单的离线批处理MR任务的框架,升级为M ...
- Spark性能相关参数配置详解
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化. 由于篇 ...
- Spark性能调优系列:Spark参数配置大全(官网资料)
Spark参数配置大全 Spark提供了三个位置来配置系统 Spark属性控制大多数应用程序参数,可以使用SparkConf对象或Java系统属性来设置. 通过conf/spark-env.sh每个节 ...
- Spark Standalone -- 独立集群模式、Spark 提交任务的两种模式、spark在yarn上运行的环境搭建、自己写的spark代码如何提交到yarn上并运行...
目录 Spark Standalone -- 独立集群模式 Standalone 架构图 Standalone 的搭建 1.上传.解压.重命名 2.配置环境变量 3.修改配置文件 conf 4.同步到 ...
- Yarn 内存分配管理机制及相关参数配置
理解Yarn的内存管理与分配机制,对于我们搭建.部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考. 一.相关配置情况 关于Yarn内存分配与管理,主要涉及到了ResourceM ...
最新文章
- Linux C编程--进程介绍2--exec函数
- SpringBoot 项目war包部署 配置外置tomcat方法
- TI Davinci DM6446开发攻略——开发环境搭建
- HEXA机器人荣获CES Asia2018 创新奖
- Java——集合带All的功能演示
- JavaScript--关于变量提升思考
- python字典文件,python-文件转字典,字典转文件
- 用 GDI 操作 EMF 文件[5]: GetEnhMetaFileDescription - 获取 EMF 文件的说明文本
- C#代码调用js函数,js函数中的document.getElementById(对象ID)得null值解决办法
- 50秒开门,3分钟开走,特斯拉Model S就这样不翼而飞
- [Android]使用ActivityGroup来切换Activity和Layout
- 啊哈C语言 第7章 有了它你能做更多的事(第27-28讲)
- Itext设置页眉页脚、表头划线、水印、条形码、二维码
- ABTest之最常见的八个错误
- ElasticSearch的REST APIs 之 索引的别名(alias)管理
- android 流星动画,超简单的android 流星雨动画 流星动画
- 智能定位系统实验报告
- UE4Lamplight_预结算光照情景
- 【论文导读】MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS
- 手术分级标准目录2020_2020年3月份即将实施国家标准目录(四)
热门文章
- SQL获取上个月第一天和最后一天的时间写法
- 利用SoapUI 测试web service的方法介绍
- 一个简单词法分析器的实现代码(java实现)
- access violation at address in module Read of address
- 提高雅思听力速度必须反复练耳朵别无捷径
- 计时器延迟 NSTimer和CADisplaylink GCD中的延迟
- BZOJ-1024 生日快乐 DFS+一丝sb的数学思考
- J.U.C atomic 数组,字段原子操作
- [转]java二维码生成与解析代码实现
- 客户端页面不更新CSS样式或JS脚本的方法 (2018-08-17 17:33)