spark-submit 提交任务及参数说明
spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。
1. 例子
一个最简单的例子,部署 spark standalone 模式后,提交到本地执行。
./bin/spark-submit \
--master spark://localhost:7077 \
examples/src/main/python/pi.py
如果部署 hadoop,并且启动 yarn 后,spark 提交到 yarn 执行的例子如下。
注意,spark 必须编译成支持 yarn 模式,编译 spark 的命令为:
build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package
其中, 2.x 为 hadoop 的版本号。编译完成后,可执行下面的命令,提交任务到 hadoop yarn 集群执行。
./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
--queue thequeue \
examples/target/scala-2.11/jars/spark-examples*.jar 10
www.yinhu.tech
2. spark-submit 详细参数说明
参数名 | 参数说明 |
--master | master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local |
--deploy-mode | 在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client |
--class | 应用程序的主类,仅针对 java 或 scala 应用 |
--name | 应用程序的名称 |
--jars | 用逗号分隔的本地 jar 包,设置后,这些 jar 将包含在 driver 和 executor 的 classpath 下 |
--packages | 包含在driver 和executor 的 classpath 中的 jar 的 maven 坐标 |
--exclude-packages | 为了避免冲突 而指定不包含的 package |
--repositories | 远程 repository |
--conf PROP=VALUE |
指定 spark 配置属性的值, 例如 -conf spark.executor.extraJavaOptions="-XX:MaxPermSize=256m" |
--properties-file | 加载的配置文件,默认为 conf/spark-defaults.conf |
--driver-memory | Driver内存,默认 1G |
--driver-java-options | 传给 driver 的额外的 Java 选项 |
--driver-library-path | 传给 driver 的额外的库路径 |
--driver-class-path | 传给 driver 的额外的类路径 |
--driver-cores | Driver 的核数,默认是1。在 yarn 或者 standalone 下使用 |
--executor-memory | 每个 executor 的内存,默认是1G |
--total-executor-cores | 所有 executor 总共的核数。仅仅在 mesos 或者 standalone 下使用 |
--num-executors | 启动的 executor 数量。默认为2。在 yarn 下使用 |
--executor-core | 每个 executor 的核数。在yarn或者standalone下使用 |
spark-submit 提交任务及参数说明相关推荐
- Spark Submit提交及参数调优
https://www.cnblogs.com/LHWorldBlog/p/8414342.html https://www.cnblogs.com/haoyy/p/6893943.html spar ...
- spark submit提交任务一直卡在ACCEPTED状态
千辛万苦写好代码,打成jar包,spark submit提交运行到yarn 然后默默打开yarn界面查看运行的任务,但是半天不见任务名称,这可就奇了怪了 查看 yarn application --l ...
- 平台搭建---Spark提交应用程序---Spark Submit提交应用程序及yarn
本部分来源,也可以到spark官网查看英文版. spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如***.py脚本):对于spark支 ...
- Spark Submit任务提交流程
1,简介 在上一篇博客中,我们详细介绍了Spark Standalone模式下集群的启动流程.在Spark 集群启动后,我们要想在集群上运行我们自己编写的程序,该如何做呢?本篇博客就主要介绍Spark ...
- Spark On Yarn --jars/spark.yarn.jars 踩坑 与 提升spark submit速度
一.引言 Spark submit 可以选择 --jars 传入本地的jar也可以 --jars 传入HDFS的jar包,经过半下午的实验,终于搞清了两者的关系以及 spark.yarn.jars 和 ...
- 【原创】大数据基础之Spark(1)Spark Submit即Spark任务提交过程
Spark2.1.1 一 Spark Submit本地解析 1.1 现象 提交命令: spark-submit --master local[10] --driver-memory 30g --cla ...
- spark提交python程序_Spark任务提交(Spark Submit)
Spark-Submit简介 spark-submit脚本用于在集群上启动应用程序,它位于Spark的bin目录中.这种启动方式可以通过统一的界面使用所有的Spark支持的集群管理功能,因此您不必为每 ...
- spark submit参数及调优
spark submit参数及调优 原文地址 spark submit参数介绍 你可以通过spark-submit --help或者spark-shell --help来查看这些参数. 使用格式: ...
- spark submit参数及调优(转载)
spark submit参数介绍 你可以通过spark-submit --help或者spark-shell --help来查看这些参数. 使用格式: ./bin/spark-submit \--c ...
- spark submit参数及调试
原文:http://www.cnblogs.com/haoyy/p/6893943.html spark submit参数介绍 你可以通过spark-submit --help或者spark-shel ...
最新文章
- Const 重载解析
- eAccelerator和ionCube安装不上的解决办法
- css布局详解(一)——盒模型
- 无人值守网络安装Linux系统
- 妙笔生花:一个易用、高效的文本生成开源库
- 已知数据信息为 16位,最少应附加( )位校验位,以实现海明码纠错。
- Android SDK+Eclipse+ADT+CDT+NDK 开发环境在windows 7下的搭建
- 电子元件 —— 继电器
- MFC对话框增加状态栏 以及设置状态栏滚动字幕
- linux 查看nginx,php-fpm运行用户及用户组
- 蓝桥杯题目练习(加法运算)
- C 中用语言描述出下述方法的功能,2015年10月自考《大学语文》模拟试题及答案4...
- php电脑端打开微信页面大小,电脑微信小程序设置全屏的方法是什么?
- 无缝移植J2ME程序到OPhone平台解决方案
- STC单片机对AT24C02进行数据读写操作
- 嵌套相对比较通俗的解释(网页百度内容,非原创)
- 多所院校发布研究生补录通知!
- FFmpeg —— mp4文件转为avi无损文件(附源码)
- U盘有多个分区怎么合并
- 《动手学深度学习》第三十三天---AdaGrad算法,RMSProp算法,AdaDelta算法,Adam算法