前言

整理了spark官网提供的一些常用的spark属性。

Spark属性

属性名 默认值 描述
spark.yarn.am.memory 512m 在Client模式下用于YARN Application Master的内存量,格式与JVM内存字符串相同(例如512m,2g)。
在Cluster模式下,请改用spark.driver.memory。使用小写后缀,例如 k,m,g,t和p分别为kibi-,mebi-,gibi-,tebi-和pebibytes。
spark.yarn.am.cores 1 在Client模式下用于YARN Application Master的核心数。 在群集模式下,请改用spark.driver.cores。
spark.yarn.am.waitTime 100s 仅在Cluster模式下使用。 YARN Application Master等待SparkContext初始化的时间。
spark.yarn.submit.file.replication The default HDFS replication (usually 3) 为应用程序上载到HDFS的文件的HDFS复制级别。 这些包括Spark jar,app jar和任何分布式缓存文件/存档
spark.yarn.stagingDir 当前用户在文件系统中的主目录 提交应用程序时使用的暂存目录.
spark.yarn.preserve.staging.files false 设置为true以在作业结束时保留暂存文件(Spark jar,app jar,分布式缓存文件),而不是删除它们。
spark.yarn.scheduler.heartbeat.interval-ms 3000 Spark应用程序主服务器心跳到YARN ResourceManager的时间间隔(毫秒)。 对于到期间隔,该值的上限为YARN配置值的一半,即yarn.am.liveness-monitor.expiry-interval-ms。
spark.yarn.scheduler.initial-allocation.interval 200ms 当存在待处理的容器分配请求时,Spark应用程序主机急切地检测到YARN ResourceManager的初始间隔。 它应该不大于spark.yarn.scheduler.heartbeat.interval-ms。 如果挂起的容器仍然存在,则分配间隔将在连续的急切心跳上加倍,直到达到spark.yarn.scheduler.heartbeat.interval-ms。
spark.yarn.max.executor.failures numExecutors * 2, 最小为 3 应用程序失败之前的最大执行程序失败次数。
spark.yarn.dist.archives (none) 以逗号分隔的archives列表,将其提取到每个执行程序的工作目录中
spark.yarn.dist.files (none) 以逗号分隔的文件列表,放在每个执行程序的工作目录中。
spark.yarn.dist.jars (none) 以逗号分隔的jar列表,放在每个执行程序的工作目录中。
spark.yarn.dist.forceDownloadSchemes (none) 以逗号分隔的Scheme列表,在将资源添加到YARN的分布式缓存之前将资源下载到本地磁盘。 用于YARN服务不支持Spark支持的scheme的情况,例如http,https和ftp,或者需要位于本地YARN客户端类路径中的jar。 表示通配符’*'以下载所有方案的资源。
spark.executor.instances 2 静态分配的执行程序数。 使用spark.dynamicAllocation.enabled,初始执行程序集至少含有该数量的executor数
spark.yarn.am.memoryOverhead AM memory * 0.10, 最少为384 与spark.driver.memoryOverhead相同,但对于Client模式下的YARN Application Master。
spark.yarn.queue default 提交应用程序的YARN队列的名称。
spark.yarn.jars (none) 包含要分发到YARN容器的Spark代码的库列表。 默认情况下,YARN上的Spark将使用本地安装的Spark jar,但Spark jar也可以位于HDFS上的世界可读位置。 这允许YARN将其缓存在节点上,这样每次应用程序运行时都不需要分发它。 例如,要指向HDFS上的jar,请将此配置设置为hdfs:///some/path。 允许使用全局变量。
spark.yarn.archive (none) 包含所需Spark Spark的存档,以便分发到YARN缓存。 如果设置,则此配置将替换spark.yarn.jars,并且该存档将用于所有应用程序的容器中。 存档应在其根目录中包含jar文件。 与之前的选项一样,存档也可以托管在HDFS上以加速文件分发。
spark.yarn.appMasterEnv.[EnvironmentVariableName] (none) 将EnvironmentVariableName指定的环境变量添加到在YARN上启动的Application Master进程。 用户可以指定其中的多个并设置多个环境变量。 在集群模式下,它控制Spark驱动程序的环境,在客户端模式下,它仅控制执行程序启动程序的环境。
spark.yarn.containerLauncherMaxThreads 25 YARN Application Master中用于启动执行程序容器的最大线程数。
spark.yarn.am.extraJavaOptions (none) 在客户端模式下传递给YARN Application Master的一串额外JVM选项。 在群集模式下,请改用spark.driver.extraJavaOptions。 请注意,使用此选项设置最大堆大小(-Xmx)设置是非法的。 可以使用spark.yarn.am.memory设置最大堆大小设置
spark.yarn.am.extraLibraryPath (none) 设置在客户端模式下启动YARN Application Master时要使用的额外库路径。
spark.yarn.maxAppAttempts yarn.resourcemanager.am.max-attempts in YARN 提交申请的最大尝试次数。 它应该不大于YARN配置中的全局最大尝试次数
spark.yarn.am.attemptFailuresValidityInterval (none) 定义AM故障跟踪的有效性间隔。 如果AM已运行至少定义的时间间隔,则AM故障计数将被重置。 如果未配置,则不启用此功能.
spark.yarn.executor.failuresValidityInterval (none) 定义执行程序故障跟踪的有效性间隔。 将忽略早于有效期间隔的执行程序故障。
spark.yarn.submit.waitAppCompletion true 在YARN群集模式下,控制客户端在应用程序完成之前是否等待退出。 如果设置为true,则客户端进程将保持活动状态,报告应用程序的状态。 否则,客户端进程将在提交后退出。
spark.yarn.am.nodeLabelExpression (none) 将调度限制节点集AM的YARN节点标签表达式。 只有大于或等于2.6的YARN版本才支持节点标签表达式,因此在针对早期版本运行时,将忽略此属性。
spark.yarn.executor.nodeLabelExpression (none) 将调度限制节点执行程序集的YARN节点标签表达式。 只有大于或等于2.6的YARN版本才支持节点标签表达式,因此在针对早期版本运行时,将忽略此属性。
spark.yarn.tags (none) 以逗号分隔的字符串列表,作为YARN ApplicationReports中出现的YARN应用程序标记传递,可在查询YARN应用程序时用于过滤。
spark.yarn.blacklist.executor.launch.blacklisting.enabled false 标记,以启用具有YARN资源分配问题的节点的黑名单。 可以通过spark.blacklist.application.maxFailedExecutorsPerNode配置列入黑名单的错误限制。

关于spark yarn模式下的常用属性相关推荐

  1. spark on yarn模式下SparkStream整合kafka踩的各种坑(已解决)_fqzzzzz的博客

    项目场景: 使用sparkStream接收kafka的数据进行计算,并且打包上传到linux进行spark任务的submit 错误集合: 1.错误1: Failed to add file:/usr/ ...

  2. spark yarn模式提交任务不成功(application state: ACCEPTED)

    问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPARK_WORKER_M ...

  3. spark StandAlone模式下的作业提交流程

    spark StandAlone也有两种作业提交模式,client 和 cluster模式,以下以cluster为例说明 提交代码 ./spark-submit \ --class org.apach ...

  4. 【FLINK 】 Flink on YARN模式下TaskManager的内存分配

    解决背景: 总的ytm分配的不变的情况下怎么划分给堆内内存JVM 一个更大的内存空间 对于心急的同学来说,我们直接先给一个解决方案,后面想去了解的再往下看: 原来的命令,-ytm 8192,分配给ta ...

  5. Spark standalone 模式下的集群部署

    版本! 需要注意两点: (1)使用的Hadoop必须是 2.0 系列,比如 0.23.x,2.0.x,2.x.x或CDH4.CDH5 等,将 Spark 运行在 Hadoop 上,本质上是将 Spar ...

  6. yarn 怎么查看有多个job在跑_flink on yarn 模式下提示yarn资源不足问题分析

    背景 在实时计算平台上通过YarnClient向yarn上提交flink任务时一直卡在那里,并在client端一直输出如下日志: (YarnClusterDescriptor.java:1036)- ...

  7. flink on yarn模式下释放flink占用yarn的资源

    除了关闭session.sh启动的进程以外, kill YarnJobClusterEntrypoint所在的jps进程 完成上述操作后,再次前往yarn界面,就可以看到队列中占用的资源都被释放了.

  8. Spark 运行模式 standalong yarn

    standalong 模式需要在spark master 节点上启动 spark/sbin/start-all.sh 主从节点都可以run standalong client ./bin/spark- ...

  9. Spark基础学习笔记05:搭建Spark Standalone模式的集群

    文章目录 零.本讲学习目标 一.Spark集群拓扑 (一)集群拓扑 (二)集群角色分配 二.搭建集群 (一)私有云上创建三台虚拟机 (二)利用SecureCRT登录三台虚拟机 1.登录master虚拟 ...

最新文章

  1. 组复制官方翻译五、Group Replication Security
  2. 红顶商人 —— 胡雪岩
  3. AB1601 PWM注意事项
  4. 著名数据库状告分支,法院:100%开源为虚假宣传!
  5. java二级考点速记_同学,你要的考点速记口诀汇总篇来啦,速记!
  6. volatile、static
  7. dev项目属性按钮是灰色_Spring Boot 中的项目属性配置
  8. java服务端异步处理机制_Java异步处理机制实例详解
  9. C++-文件【1】-按行读文本文件的两种方法
  10. 解决西门子Step 7 basic 找不到许可证问题
  11. 五款APP让你告别拖延症!余生愿你活成自己想要的样子
  12. ysoserial exploit/JRMPListener原理剖析
  13. 怎么大量转换图片格式为tiff
  14. 扩展卡尔曼滤波soc估算 基于EKF算法的锂电池SOC
  15. 软考之---软件设计师考试经验与笔记分享
  16. 从屡遭拒稿到90后助理教授,罗格斯大学王灏:好奇心驱使我不断探索
  17. OneZero第四周第一次站立会议(2016.4.11)
  18. Gaussdb,国产数据库的崛起
  19. win10安装jdk及环境配置
  20. latch:cache buffers chains

热门文章

  1. php正则匹配多个,15个超实用的php正则表达式
  2. ***培训网第一案审结 黑鹰负责人被判一年半
  3. laravel中自定义邮件发送重置密码
  4. 第2月第24天 coretext 行高
  5. MIT的算法导论课程资料
  6. centos7静默安装oracle11gR2 实践
  7. 双摄像头立体成像(一)-成像原理
  8. 国家级文件发布:2020年推进电信基础设施共建共享,支持5G智慧杆塔建设
  9. webp的生成转换方法之图片转webp,包括生成webp动态图片
  10. 华为中软国际智造云隆重亮相南京软博会并与江苏龙头企业达成战略合作