关于spark yarn模式下的常用属性

前言

整理了spark官网提供的一些常用的spark属性。

Spark属性

属性名	默认值	描述
spark.yarn.am.memory	512m	在Client模式下用于YARN Application Master的内存量，格式与JVM内存字符串相同（例如512m，2g）。在Cluster模式下，请改用spark.driver.memory。使用小写后缀，例如 k，m，g，t和p分别为kibi-，mebi-，gibi-，tebi-和pebibytes。
spark.yarn.am.cores	1	在Client模式下用于YARN Application Master的核心数。在群集模式下，请改用spark.driver.cores。
spark.yarn.am.waitTime	100s	仅在Cluster模式下使用。 YARN Application Master等待SparkContext初始化的时间。
spark.yarn.submit.file.replication	The default HDFS replication (usually 3)	为应用程序上载到HDFS的文件的HDFS复制级别。这些包括Spark jar，app jar和任何分布式缓存文件/存档
spark.yarn.stagingDir	当前用户在文件系统中的主目录	提交应用程序时使用的暂存目录.
spark.yarn.preserve.staging.files	false	设置为true以在作业结束时保留暂存文件（Spark jar，app jar，分布式缓存文件），而不是删除它们。
spark.yarn.scheduler.heartbeat.interval-ms	3000	Spark应用程序主服务器心跳到YARN ResourceManager的时间间隔（毫秒）。对于到期间隔，该值的上限为YARN配置值的一半，即yarn.am.liveness-monitor.expiry-interval-ms。
spark.yarn.scheduler.initial-allocation.interval	200ms	当存在待处理的容器分配请求时，Spark应用程序主机急切地检测到YARN ResourceManager的初始间隔。它应该不大于spark.yarn.scheduler.heartbeat.interval-ms。如果挂起的容器仍然存在，则分配间隔将在连续的急切心跳上加倍，直到达到spark.yarn.scheduler.heartbeat.interval-ms。
spark.yarn.max.executor.failures	numExecutors * 2, 最小为 3	应用程序失败之前的最大执行程序失败次数。
spark.yarn.dist.archives	(none)	以逗号分隔的archives列表，将其提取到每个执行程序的工作目录中
spark.yarn.dist.files	(none)	以逗号分隔的文件列表，放在每个执行程序的工作目录中。
spark.yarn.dist.jars	(none)	以逗号分隔的jar列表，放在每个执行程序的工作目录中。
spark.yarn.dist.forceDownloadSchemes	(none)	以逗号分隔的Scheme列表，在将资源添加到YARN的分布式缓存之前将资源下载到本地磁盘。用于YARN服务不支持Spark支持的scheme的情况，例如http，https和ftp，或者需要位于本地YARN客户端类路径中的jar。表示通配符’*'以下载所有方案的资源。
spark.executor.instances	2	静态分配的执行程序数。使用spark.dynamicAllocation.enabled，初始执行程序集至少含有该数量的executor数
spark.yarn.am.memoryOverhead	AM memory * 0.10, 最少为384	与spark.driver.memoryOverhead相同，但对于Client模式下的YARN Application Master。
spark.yarn.queue	default	提交应用程序的YARN队列的名称。
spark.yarn.jars	(none)	包含要分发到YARN容器的Spark代码的库列表。默认情况下，YARN上的Spark将使用本地安装的Spark jar，但Spark jar也可以位于HDFS上的世界可读位置。这允许YARN将其缓存在节点上，这样每次应用程序运行时都不需要分发它。例如，要指向HDFS上的jar，请将此配置设置为hdfs:///some/path。允许使用全局变量。
spark.yarn.archive	(none)	包含所需Spark Spark的存档，以便分发到YARN缓存。如果设置，则此配置将替换spark.yarn.jars，并且该存档将用于所有应用程序的容器中。存档应在其根目录中包含jar文件。与之前的选项一样，存档也可以托管在HDFS上以加速文件分发。
spark.yarn.appMasterEnv.[EnvironmentVariableName]	(none)	将EnvironmentVariableName指定的环境变量添加到在YARN上启动的Application Master进程。用户可以指定其中的多个并设置多个环境变量。在集群模式下，它控制Spark驱动程序的环境，在客户端模式下，它仅控制执行程序启动程序的环境。
spark.yarn.containerLauncherMaxThreads	25	YARN Application Master中用于启动执行程序容器的最大线程数。
spark.yarn.am.extraJavaOptions	(none)	在客户端模式下传递给YARN Application Master的一串额外JVM选项。在群集模式下，请改用spark.driver.extraJavaOptions。请注意，使用此选项设置最大堆大小（-Xmx）设置是非法的。可以使用spark.yarn.am.memory设置最大堆大小设置
spark.yarn.am.extraLibraryPath	(none)	设置在客户端模式下启动YARN Application Master时要使用的额外库路径。
spark.yarn.maxAppAttempts	yarn.resourcemanager.am.max-attempts in YARN	提交申请的最大尝试次数。它应该不大于YARN配置中的全局最大尝试次数
spark.yarn.am.attemptFailuresValidityInterval	(none)	定义AM故障跟踪的有效性间隔。如果AM已运行至少定义的时间间隔，则AM故障计数将被重置。如果未配置，则不启用此功能.
spark.yarn.executor.failuresValidityInterval	(none)	定义执行程序故障跟踪的有效性间隔。将忽略早于有效期间隔的执行程序故障。
spark.yarn.submit.waitAppCompletion	true	在YARN群集模式下，控制客户端在应用程序完成之前是否等待退出。如果设置为true，则客户端进程将保持活动状态，报告应用程序的状态。否则，客户端进程将在提交后退出。
spark.yarn.am.nodeLabelExpression	(none)	将调度限制节点集AM的YARN节点标签表达式。只有大于或等于2.6的YARN版本才支持节点标签表达式，因此在针对早期版本运行时，将忽略此属性。
spark.yarn.executor.nodeLabelExpression	(none)	将调度限制节点执行程序集的YARN节点标签表达式。只有大于或等于2.6的YARN版本才支持节点标签表达式，因此在针对早期版本运行时，将忽略此属性。
spark.yarn.tags	(none)	以逗号分隔的字符串列表，作为YARN ApplicationReports中出现的YARN应用程序标记传递，可在查询YARN应用程序时用于过滤。
spark.yarn.blacklist.executor.launch.blacklisting.enabled	false	标记，以启用具有YARN资源分配问题的节点的黑名单。可以通过spark.blacklist.application.maxFailedExecutorsPerNode配置列入黑名单的错误限制。

关于spark yarn模式下的常用属性相关推荐

spark on yarn模式下SparkStream整合kafka踩的各种坑(已解决)_fqzzzzz的博客
项目场景: 使用sparkStream接收kafka的数据进行计算,并且打包上传到linux进行spark任务的submit 错误集合: 1.错误1: Failed to add file:/usr/ ...
spark yarn模式提交任务不成功（application state: ACCEPTED）
问题详情电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPARK_WORKER_M ...
spark StandAlone模式下的作业提交流程
spark StandAlone也有两种作业提交模式,client 和 cluster模式,以下以cluster为例说明提交代码 ./spark-submit \ --class org.apach ...
【FLINK 】 Flink on YARN模式下TaskManager的内存分配
解决背景: 总的ytm分配的不变的情况下怎么划分给堆内内存JVM 一个更大的内存空间对于心急的同学来说,我们直接先给一个解决方案,后面想去了解的再往下看: 原来的命令,-ytm 8192,分配给ta ...
Spark standalone 模式下的集群部署
版本! 需要注意两点: (1)使用的Hadoop必须是 2.0 系列,比如 0.23.x,2.0.x,2.x.x或CDH4.CDH5 等,将 Spark 运行在 Hadoop 上,本质上是将 Spar ...
yarn 怎么查看有多个job在跑_flink on yarn 模式下提示yarn资源不足问题分析
背景在实时计算平台上通过YarnClient向yarn上提交flink任务时一直卡在那里,并在client端一直输出如下日志: (YarnClusterDescriptor.java:1036)- ...
flink on yarn模式下释放flink占用yarn的资源
除了关闭session.sh启动的进程以外, kill YarnJobClusterEntrypoint所在的jps进程完成上述操作后,再次前往yarn界面,就可以看到队列中占用的资源都被释放了.
Spark 运行模式 standalong yarn
standalong 模式需要在spark master 节点上启动 spark/sbin/start-all.sh 主从节点都可以run standalong client ./bin/spark- ...
Spark基础学习笔记05：搭建Spark Standalone模式的集群
文章目录零.本讲学习目标一.Spark集群拓扑 (一)集群拓扑 (二)集群角色分配二.搭建集群 (一)私有云上创建三台虚拟机 (二)利用SecureCRT登录三台虚拟机 1.登录master虚拟 ...

关于spark yarn模式下的常用属性

前言

Spark属性

关于spark yarn模式下的常用属性相关推荐

最新文章

热门文章