关于spark yarn模式下的常用属性
前言
整理了spark官网提供的一些常用的spark属性。
Spark属性
属性名 | 默认值 | 描述 |
---|---|---|
spark.yarn.am.memory | 512m |
在Client模式下用于YARN Application Master的内存量,格式与JVM内存字符串相同(例如512m,2g)。 在Cluster模式下,请改用spark.driver.memory。使用小写后缀,例如 k,m,g,t和p分别为kibi-,mebi-,gibi-,tebi-和pebibytes。 |
spark.yarn.am.cores | 1 | 在Client模式下用于YARN Application Master的核心数。 在群集模式下,请改用spark.driver.cores。 |
spark.yarn.am.waitTime | 100s | 仅在Cluster模式下使用。 YARN Application Master等待SparkContext初始化的时间。 |
spark.yarn.submit.file.replication | The default HDFS replication (usually 3) | 为应用程序上载到HDFS的文件的HDFS复制级别。 这些包括Spark jar,app jar和任何分布式缓存文件/存档 |
spark.yarn.stagingDir | 当前用户在文件系统中的主目录 | 提交应用程序时使用的暂存目录. |
spark.yarn.preserve.staging.files | false | 设置为true以在作业结束时保留暂存文件(Spark jar,app jar,分布式缓存文件),而不是删除它们。 |
spark.yarn.scheduler.heartbeat.interval-ms | 3000 | Spark应用程序主服务器心跳到YARN ResourceManager的时间间隔(毫秒)。 对于到期间隔,该值的上限为YARN配置值的一半,即yarn.am.liveness-monitor.expiry-interval-ms。 |
spark.yarn.scheduler.initial-allocation.interval | 200ms | 当存在待处理的容器分配请求时,Spark应用程序主机急切地检测到YARN ResourceManager的初始间隔。 它应该不大于spark.yarn.scheduler.heartbeat.interval-ms。 如果挂起的容器仍然存在,则分配间隔将在连续的急切心跳上加倍,直到达到spark.yarn.scheduler.heartbeat.interval-ms。 |
spark.yarn.max.executor.failures | numExecutors * 2, 最小为 3 | 应用程序失败之前的最大执行程序失败次数。 |
spark.yarn.dist.archives | (none) | 以逗号分隔的archives列表,将其提取到每个执行程序的工作目录中 |
spark.yarn.dist.files | (none) | 以逗号分隔的文件列表,放在每个执行程序的工作目录中。 |
spark.yarn.dist.jars | (none) | 以逗号分隔的jar列表,放在每个执行程序的工作目录中。 |
spark.yarn.dist.forceDownloadSchemes | (none) | 以逗号分隔的Scheme列表,在将资源添加到YARN的分布式缓存之前将资源下载到本地磁盘。 用于YARN服务不支持Spark支持的scheme的情况,例如http,https和ftp,或者需要位于本地YARN客户端类路径中的jar。 表示通配符’*'以下载所有方案的资源。 |
spark.executor.instances | 2 | 静态分配的执行程序数。 使用spark.dynamicAllocation.enabled,初始执行程序集至少含有该数量的executor数 |
spark.yarn.am.memoryOverhead | AM memory * 0.10, 最少为384 | 与spark.driver.memoryOverhead相同,但对于Client模式下的YARN Application Master。 |
spark.yarn.queue | default | 提交应用程序的YARN队列的名称。 |
spark.yarn.jars | (none) | 包含要分发到YARN容器的Spark代码的库列表。 默认情况下,YARN上的Spark将使用本地安装的Spark jar,但Spark jar也可以位于HDFS上的世界可读位置。 这允许YARN将其缓存在节点上,这样每次应用程序运行时都不需要分发它。 例如,要指向HDFS上的jar,请将此配置设置为hdfs:///some/path。 允许使用全局变量。 |
spark.yarn.archive | (none) | 包含所需Spark Spark的存档,以便分发到YARN缓存。 如果设置,则此配置将替换spark.yarn.jars,并且该存档将用于所有应用程序的容器中。 存档应在其根目录中包含jar文件。 与之前的选项一样,存档也可以托管在HDFS上以加速文件分发。 |
spark.yarn.appMasterEnv.[EnvironmentVariableName] | (none) | 将EnvironmentVariableName指定的环境变量添加到在YARN上启动的Application Master进程。 用户可以指定其中的多个并设置多个环境变量。 在集群模式下,它控制Spark驱动程序的环境,在客户端模式下,它仅控制执行程序启动程序的环境。 |
spark.yarn.containerLauncherMaxThreads | 25 | YARN Application Master中用于启动执行程序容器的最大线程数。 |
spark.yarn.am.extraJavaOptions | (none) | 在客户端模式下传递给YARN Application Master的一串额外JVM选项。 在群集模式下,请改用spark.driver.extraJavaOptions。 请注意,使用此选项设置最大堆大小(-Xmx)设置是非法的。 可以使用spark.yarn.am.memory设置最大堆大小设置 |
spark.yarn.am.extraLibraryPath | (none) | 设置在客户端模式下启动YARN Application Master时要使用的额外库路径。 |
spark.yarn.maxAppAttempts | yarn.resourcemanager.am.max-attempts in YARN | 提交申请的最大尝试次数。 它应该不大于YARN配置中的全局最大尝试次数 |
spark.yarn.am.attemptFailuresValidityInterval | (none) | 定义AM故障跟踪的有效性间隔。 如果AM已运行至少定义的时间间隔,则AM故障计数将被重置。 如果未配置,则不启用此功能. |
spark.yarn.executor.failuresValidityInterval | (none) | 定义执行程序故障跟踪的有效性间隔。 将忽略早于有效期间隔的执行程序故障。 |
spark.yarn.submit.waitAppCompletion | true | 在YARN群集模式下,控制客户端在应用程序完成之前是否等待退出。 如果设置为true,则客户端进程将保持活动状态,报告应用程序的状态。 否则,客户端进程将在提交后退出。 |
spark.yarn.am.nodeLabelExpression | (none) | 将调度限制节点集AM的YARN节点标签表达式。 只有大于或等于2.6的YARN版本才支持节点标签表达式,因此在针对早期版本运行时,将忽略此属性。 |
spark.yarn.executor.nodeLabelExpression | (none) | 将调度限制节点执行程序集的YARN节点标签表达式。 只有大于或等于2.6的YARN版本才支持节点标签表达式,因此在针对早期版本运行时,将忽略此属性。 |
spark.yarn.tags | (none) | 以逗号分隔的字符串列表,作为YARN ApplicationReports中出现的YARN应用程序标记传递,可在查询YARN应用程序时用于过滤。 |
spark.yarn.blacklist.executor.launch.blacklisting.enabled | false | 标记,以启用具有YARN资源分配问题的节点的黑名单。 可以通过spark.blacklist.application.maxFailedExecutorsPerNode配置列入黑名单的错误限制。 |
关于spark yarn模式下的常用属性相关推荐
- spark on yarn模式下SparkStream整合kafka踩的各种坑(已解决)_fqzzzzz的博客
项目场景: 使用sparkStream接收kafka的数据进行计算,并且打包上传到linux进行spark任务的submit 错误集合: 1.错误1: Failed to add file:/usr/ ...
- spark yarn模式提交任务不成功(application state: ACCEPTED)
问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPARK_WORKER_M ...
- spark StandAlone模式下的作业提交流程
spark StandAlone也有两种作业提交模式,client 和 cluster模式,以下以cluster为例说明 提交代码 ./spark-submit \ --class org.apach ...
- 【FLINK 】 Flink on YARN模式下TaskManager的内存分配
解决背景: 总的ytm分配的不变的情况下怎么划分给堆内内存JVM 一个更大的内存空间 对于心急的同学来说,我们直接先给一个解决方案,后面想去了解的再往下看: 原来的命令,-ytm 8192,分配给ta ...
- Spark standalone 模式下的集群部署
版本! 需要注意两点: (1)使用的Hadoop必须是 2.0 系列,比如 0.23.x,2.0.x,2.x.x或CDH4.CDH5 等,将 Spark 运行在 Hadoop 上,本质上是将 Spar ...
- yarn 怎么查看有多个job在跑_flink on yarn 模式下提示yarn资源不足问题分析
背景 在实时计算平台上通过YarnClient向yarn上提交flink任务时一直卡在那里,并在client端一直输出如下日志: (YarnClusterDescriptor.java:1036)- ...
- flink on yarn模式下释放flink占用yarn的资源
除了关闭session.sh启动的进程以外, kill YarnJobClusterEntrypoint所在的jps进程 完成上述操作后,再次前往yarn界面,就可以看到队列中占用的资源都被释放了.
- Spark 运行模式 standalong yarn
standalong 模式需要在spark master 节点上启动 spark/sbin/start-all.sh 主从节点都可以run standalong client ./bin/spark- ...
- Spark基础学习笔记05:搭建Spark Standalone模式的集群
文章目录 零.本讲学习目标 一.Spark集群拓扑 (一)集群拓扑 (二)集群角色分配 二.搭建集群 (一)私有云上创建三台虚拟机 (二)利用SecureCRT登录三台虚拟机 1.登录master虚拟 ...
最新文章
- 组复制官方翻译五、Group Replication Security
- 红顶商人 —— 胡雪岩
- AB1601 PWM注意事项
- 著名数据库状告分支,法院:100%开源为虚假宣传!
- java二级考点速记_同学,你要的考点速记口诀汇总篇来啦,速记!
- volatile、static
- dev项目属性按钮是灰色_Spring Boot 中的项目属性配置
- java服务端异步处理机制_Java异步处理机制实例详解
- C++-文件【1】-按行读文本文件的两种方法
- 解决西门子Step 7 basic 找不到许可证问题
- 五款APP让你告别拖延症!余生愿你活成自己想要的样子
- ysoserial exploit/JRMPListener原理剖析
- 怎么大量转换图片格式为tiff
- 扩展卡尔曼滤波soc估算 基于EKF算法的锂电池SOC
- 软考之---软件设计师考试经验与笔记分享
- 从屡遭拒稿到90后助理教授,罗格斯大学王灏:好奇心驱使我不断探索
- OneZero第四周第一次站立会议(2016.4.11)
- Gaussdb,国产数据库的崛起
- win10安装jdk及环境配置
- latch:cache buffers chains