文章目录

零、本讲学习目标
一、Spark集群拓扑
- （一）集群拓扑
- （二）集群角色分配
二、搭建集群
- （一）私有云上创建三台虚拟机
- （二）利用SecureCRT登录三台虚拟机
- - 1、登录master虚拟机
  - 2、登录slave1虚拟机
  - 3、登录slave2虚拟机
- （三）查看三台虚拟机主机名
- （四）配置三台虚拟机IP-主机名映射
- - 1、配置master虚拟机IP-主机名映射
  - 2、配置slave1虚拟机IP-主机名映射
  - 3、配置slave2虚拟机IP-主机名映射
- （五）关闭与禁用防火墙
- - 1、关闭与禁用master虚拟机的防火墙
  - 2、关闭与禁用slave1虚拟机的防火墙
  - 3、关闭与禁用slave2虚拟机的防火墙
- （六）关闭SeLinux安全机制
- - 1、在master虚拟机上关闭SeLinux安全机制
  - 2、在slave1虚拟机上关闭SeLinux安全机制
  - 3、在slave2虚拟机上关闭SeLinux安全机制
- （七）设置三台虚拟机相互免密登录
- - 1、master虚拟机免密登录master、slave1与slave2
  - 2、slave1虚拟机免密登录master、slave1与slave2
  - 3、slave2虚拟机免密登录master、slave1与slave2
- （八）在三台虚拟机上安装lrzsr
- - 1、在master虚拟机上安装lrzsz
  - 2、在slave1虚拟机上安装lrzsz
  - 3、在slave2虚拟机上安装lrzsz
- （九）在三台虚拟机上安装配置JDK
- - 1、在master虚拟机上安装配置JDK
  - 2、将master虚拟机上安装的JDK以及环境配置文件分发到slave1虚拟机
  - 3、将master虚拟机上安装的JDK以及环境配置文件分发到slave2虚拟机
三、配置完全分布式Hadoop
- （一）在master虚拟机上安装配置hadoop
- - 1、上传hadoop安装包到/opt目录
  - 2、将hadoop安装包解压到指定位置
  - 3、配置hadoop环境变量
  - 4、编辑hadoop环境配置文件 - hadoop-env.sh
  - 5、编辑核心配置文件 - core-site.xml
  - 6、编辑HDFS配置文件 - hdfs-site.xml
  - 7、编辑MapReduce配置文件 - mapred-site.xml
  - 8、编辑yarn配置文件 - yarn-site.xml
  - 补充：大数据组件的老大和小弟
  - 9、编辑slaves文件（定名分）
- （二）在slave1虚拟机上安装配置hadoop
- - 1、将master虚拟机上的hadoop分发到slave1虚拟机
  - 2、将master虚拟机上环境配置文件分发到slave1虚拟机
  - 3、在slave1虚拟机上让环境配置生效
- （三）在slave2虚拟机上安装配置hadoop
- - 1、将master虚拟机上的hadoop分发到slave2虚拟机
  - 2、将master虚拟机上环境配置文件分发到slave2虚拟机
  - 3、在slave2虚拟机上让环境配置生效
- （四）在master虚拟机上格式化名称节点
- （五）启动与关闭Hadoop集群
- - 1、在master虚拟机上启动hadoop服务
  - 2、查看hadoop集群的WebUI界面
  - 3、停止hadoop服务
四、配置Spark Standalone模式的集群
- （一）在master主节点上安装配置Spark
- - 1、上传spark安装包到master虚拟机
  - 2、将spark安装包解压到master虚拟机指定目录
  - 3、配置spark环境变量
  - 4、编辑spark环境配置文件 - spark-env.sh
  - 5、创建slaves文件，添加从节点
- （二）在slave1从节点上安装配置Spark
- - 1、把master虚拟机上的spark安装目录分发给slave1虚拟机
  - 2、将master虚拟机上环境变量配置文件分发到slave1虚拟机
  - 3、在slave1虚拟机上让spark环境配置文件生效
- （三）在slave2从节点上安装配置Spark
- - 1、把master虚拟机上的spark安装目录分发给slave2虚拟机
  - 2、将master虚拟机上环境变量配置文件分发到slave2虚拟机
  - 3、在slave2虚拟机上让spark环境配置文件生效
五、启动并使用Spark Standalone模式的集群
- （一）启动hadoop的dfs服务
- （二）启动Spark集群
- （三）访问Spark的WebUI
- （四）启动Scala版Spark Shell
- （五）提交Spark应用程序
- - 1、提交语法格式
  - 2、案例演示 - 提交Spark自带的求圆周率的程序
  - 3、spark-submit常用参数
- （六）关闭Spark服务

零、本讲学习目标

搭建Spark Standalone模式的集群
能够启动Spark Standalone模式的集群
学会Spark应用程序的提交

Spark的两种集群运行模式：Spark Standalone模式和Spark On YARN模式。Standalone模式需要启动Spark集群，而Spark On YARN模式不需要启动Spark集群，只需要启动YARN集群即可。先来搭建Spark Standalone模式的集群。

一、Spark集群拓扑

（一）集群拓扑

（二）集群角色分配

Spark Standalone模式的集群搭建需要在集群的每个节点都安装Spark，集群角色分配如下表所示。

节点	-角色
master	Master
slave1	Worker
slave2	Worker

二、搭建集群

（一）私有云上创建三台虚拟机

创建配置过程，参看本博《在私有云上创建与配置虚拟机》

（二）利用SecureCRT登录三台虚拟机

打开连接对话框

1、登录master虚拟机

单击连接对话框里的master，登录master虚拟机
参看本博《在CentOS7上安装vim编辑器》，在master虚拟机上安装vim编辑器
执行命令：vi /etc/resolv.conf，修改/etc/resolv.conf文件
添加两个域名服务器
存盘退出
执行命令：yum -y install vim
解决在《在私有云上创建与配置虚拟机》遗留的问题
现在我们通过/etc/resolv.conf文件添加了域名解析服务器，因此可以ping通域名了

2、登录slave1虚拟机

单击连接对话框里的slave1，登录slave1虚拟机
修改选项
单击【OK】按钮
执行命令：vi /etc/resolv.conf，添加域名解析服务器
存盘退出后，执行命令：yum - install vim，安装vim编辑器

3、登录slave2虚拟机

单击连接对话框里的slave2，登录slave2虚拟机
仿照slave1虚拟机上的做法，修改选项，效果如下所示
配置域名解析服务器之后，安装vim编辑器

（三）查看三台虚拟机主机名

查看master虚拟机主机名
查看slave1虚拟机主机名
查看slave2虚拟机主机名

（四）配置三台虚拟机IP-主机名映射

192.168.1.103 master
192.168.1.104 slave1
192.168.1.105 slave2

1、配置master虚拟机IP-主机名映射

执行命令：vim /etc/hosts
存盘退出

2、配置slave1虚拟机IP-主机名映射

执行命令：vim /etc/hosts
存盘退出

3、配置slave2虚拟机IP-主机名映射

执行命令：vim /etc/hosts
存盘退出

（五）关闭与禁用防火墙

关闭与禁用防火墙

systemctl stop firewalld.service # 关闭防火墙
systemctl disable firewalld.service # 禁用防火墙

查看防火墙状态

systemctl status firewalld.service

1、关闭与禁用master虚拟机的防火墙

2、关闭与禁用slave1虚拟机的防火墙

3、关闭与禁用slave2虚拟机的防火墙

（六）关闭SeLinux安全机制

/etc/sysconfig/selinux文件里SELINUX=enforcing，将enforcing改成disable，就可以关闭SeLinux安全机制

1、在master虚拟机上关闭SeLinux安全机制

执行命令：vim /etc/sysconfig/selinux
存盘退出

2、在slave1虚拟机上关闭SeLinux安全机制

执行命令：vim /etc/sysconfig/selinux
存盘退出

3、在slave2虚拟机上关闭SeLinux安全机制

执行命令：vim /etc/sysconfig/selinux
存盘退出

（七）设置三台虚拟机相互免密登录

1、master虚拟机免密登录master、slave1与slave2

执行命令：ssh-keygen，生成密钥对
执行命令：ssh-copy-id root@master，将公钥拷贝到master
执行命令：ssh-copy-id root@slave1，将公钥拷贝到slave1
执行命令：ssh-copy-id root@slave2，将公钥拷贝到slave2
验证master是否可以免密登录master、slave1与slave2

2、slave1虚拟机免密登录master、slave1与slave2

执行命令：ssh-keygen，生成密钥对
执行命令：ssh-copy-id root@master，将公钥拷贝到master
执行命令：ssh-copy-id root@slave1，将公钥拷贝到slave1
执行命令：ssh-copy-id root@slave2，将公钥拷贝到slave2
验证slave1是否可以免密登录master、slave1与slave2

3、slave2虚拟机免密登录master、slave1与slave2

执行命令：ssh-keygen，生成密钥对
执行命令：ssh-copy-id root@master，将公钥拷贝到master
执行命令：ssh-copy-id root@slave1，将公钥拷贝到slave1
执行命令：ssh-copy-id root@slave2，将公钥拷贝到slave2
验证slave2是否可以免密登录master、slave1与slave2

（八）在三台虚拟机上安装lrzsr

1、在master虚拟机上安装lrzsz

执行命令：yum -y install lrzsz

2、在slave1虚拟机上安装lrzsz

执行命令：yum -y install lrzsz

3、在slave2虚拟机上安装lrzsz

执行命令：yum -y install lrzsz

（九）在三台虚拟机上安装配置JDK

1、在master虚拟机上安装配置JDK

上传Java安装包到/opt目录
执行tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local，将Java安装包解压到/usr/local
执行命令：ls /usr/local，查看解压之后的jdk
执行命令：vim /etc/profile，配置环境变量

JAVA_HOME=/usr/local/jdk1.8.0_231
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH CLASSPATH

存盘退出，执行命令：source /etc/profile，让配置生效
查看JDK版本
编写一个Java程序 - HelloWorld.java
存盘退出后，执行命令：javac HelloWorld.java，编译成字节码文件
执行命令：java HelloWorld

2、将master虚拟机上安装的JDK以及环境配置文件分发到slave1虚拟机

执行命令：scp -r $JAVA_HOME root@slave1:$JAVA_HOME (-r recursive - 递归)
在slave1虚拟机上查看Java是否拷贝成功
在master虚拟机上，执行命令：scp /etc/profile root@slave1:/etc/profile，将环境配置文件分发到slave1虚拟机
在slave1虚拟机上，查看从master虚拟机拷贝过来的配置文件profile
存盘退出，执行命令：source /etc/profile，让配置生效
执行命令：java -version，查看JDK版本

3、将master虚拟机上安装的JDK以及环境配置文件分发到slave2虚拟机

执行命令：scp -r $JAVA_HOME root@slave2:$JAVA_HOME
在slave2虚拟机上查看Java是否拷贝成功
在master虚拟机上，执行命令：scp /etc/profile root@slave2:/etc/profile
在slave2虚拟机上，查看从master虚拟机拷贝过来的配置文件profile
存盘退出，执行命令：source /etc/profile，让配置生效
执行命令：java -version，查看JDK版本

三、配置完全分布式Hadoop

（一）在master虚拟机上安装配置hadoop

1、上传hadoop安装包到/opt目录

利用rz命令上传hadoop-2.7.1.tar.gz

2、将hadoop安装包解压到指定位置

执行命令：tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local
查看解压之后的hadoop目录（bin: 可执行文件；etc/hadoop: 配置目录；sbin: 启动关闭系统的命令）

3、配置hadoop环境变量

执行命令：vim /etc/profile

JAVA_HOME=/usr/local/jdk1.8.0_231
HADOOP_HOME=/usr/local/hadoop-2.7.1
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export JAVA_HOME HADOOP_HOME PATH CLASSPATH

存盘退出，执行命令：source /etc/profile，让配置生效

4、编辑hadoop环境配置文件 - hadoop-env.sh

env: environment —— 环境
执行命令：cd $HADOOP_HOME/etc/hadoop，进入hadoop配置目录
执行命令：vim hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_231
export  HADOOP_HOME=/usr/local/hadoop-2.7.1
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

存盘退出后，执行命令source hadoop-env.sh，让配置生效
查看三个配置的三个环境变量

5、编辑核心配置文件 - core-site.xml

执行命令：vim core-site.xml

<configuration><!--用来指定hdfs的老大--><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><!--用来指定hadoop运行时产生文件的存放目录--><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop-2.7.1/tmp</value></property>
</configuration>

存盘退出
由于配置了IP地址主机名映射，因此可用hdfs://master:9000，否则必须用IP地址hdfs://192.168.1.103:9000

6、编辑HDFS配置文件 - hdfs-site.xml

执行命令：vim hdfs-site.xml

<configuration><property><!--设置名称节点的目录--><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop-2.7.1/tmp/namenode</value></property><property><!--设置数据节点的目录--><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop-2.7.1/tmp/disk1, /usr/local/hadoo
p-2.7.1/tmp/disk2</value></property>
</configuration>

存盘退出

7、编辑MapReduce配置文件 - mapred-site.xml

基于模板生成配置文件，执行命令：cp mapred-site.xml.template mapred-site.xml
执行命令：vim mapred-site.xml

<configuration><property><!--配置MR资源调度框架YARN--><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>

存盘退出

8、编辑yarn配置文件 - yarn-site.xml

执行命令：vim yarn-site.xml

<configuration><property><!--配置资源管理器--><name>yarn.resourcemanager.hostname</name><value>master</value></property><property><!--配置节点管理器--><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

存盘退出
说明：在hadoop-3.0.0的配置中，yarn.nodemanager.aux-services项的默认值是“mapreduce.shuffle”，但如果在hadoop-2.7 中继续使用这个值，NodeManager 会启动失败。

补充：大数据组件的老大和小弟

集群一般都采用主从架构：一个老大（备用老大）和多个小弟

组件	老大	小弟
ZooKeeper	Leader	Follower
Hadoop	NameNode (SecondaryNameNode)	DataNode
YARN	ResourceManager	NodeManager
HBase	HMaster	HRegionServer
Spark	Master	Worker

9、编辑slaves文件（定名分）

通过slaves文件定义从节点，有两个：slave1与slave2
执行命令：vim slaves
存盘退出

（二）在slave1虚拟机上安装配置hadoop

1、将master虚拟机上的hadoop分发到slave1虚拟机

执行命令：scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME

2、将master虚拟机上环境配置文件分发到slave1虚拟机

执行命令：scp /etc/profile root@slave1:/etc/profile

3、在slave1虚拟机上让环境配置生效

切换到slave1虚拟机，执行命令：source /etc/profile

（三）在slave2虚拟机上安装配置hadoop

1、将master虚拟机上的hadoop分发到slave2虚拟机

执行命令：scp -r $HADOOP_HOME root@slave2:$HADOOP_HOME

2、将master虚拟机上环境配置文件分发到slave2虚拟机

执行命令：scp /etc/profile root@slave2:/etc/profile

3、在slave2虚拟机上让环境配置生效

切换到slave2虚拟机，执行命令：source /etc/profile

（四）在master虚拟机上格式化名称节点

在master虚拟机上，执行命令：hdfs namenode -format
看到22/02/26 13:23:22 INFO common.Storage: Storage directory /usr/local/hadoop-2.7.1/tmp/namenode has been successfully formatted.，表明名称节点格式化成功。

（五）启动与关闭Hadoop集群

1、在master虚拟机上启动hadoop服务

执行命令：start-dfs.sh，启动hdfs服务
一个名称节点（namenode）——老大，在master虚拟机上；两个数据节点（datanode）——小弟，在slave1与slave2虚拟机上。
辅助名称节点（secondarynamenode）的地址是0.0.0.0，这是默认的，当然可以修改，可以在hdfs-site.xml文件里配置辅助名称节点

<property><!--设置辅助名称节点--><name>dfs.namenode.secondary.http-address</name><value>master:50090</value>
</property>

存盘退出
再次启动hdfs服务
关闭之后，再执行命令：start-dfs.sh
这样就是在master虚拟机(192.168.1.103)上启动辅助名称节点（secondarynamenode）
此时查看三个虚拟机的进程
执行命令：start-yarn.sh，启动YARN服务
启动了YARN守护进程；一个资源管理器（resourcemanager）在master虚拟机上，两个节点管理器（nodemanager）在slave1与slave2虚拟机上
执行命令jps查看master虚拟机的进程，只有NameNode、SecondaryNameNode和ResourceManager
查看slave1和slave2上的进程，只有NodeManager和DataNode

2、查看hadoop集群的WebUI界面

在hw_win7虚拟机浏览器访问http://master:50070
不能通过主机名master加端口50070的方式，原因在于没有在hosts文件里IP与主机名的映射，现在可以访问http://192.168.1.103:50070
修改hw_win7虚拟机上的C:\Windows\System32\drivers\etc\hosts文件
重启hadoop集群，访问http://master:50070
查看数据节点信息
点开【Utilities】下拉菜单，选择【Browse the file system】
在HDFS上创建一个目录BigData，执行命令：hadoop fs -mkdir /BigData
在WebUI界面查看刚才创建的目录

3、停止hadoop服务

在master虚拟机上执行命令：stop-all.sh（相当于同时执行了stop-dfs.sh与stop-yarn.sh）
提示：This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh，说明stop-all.sh脚本已经被废弃掉了，让我们最好使用stop-dfs.sh与stop-yarn.sh。

四、配置Spark Standalone模式的集群

（一）在master主节点上安装配置Spark

1、上传spark安装包到master虚拟机

利用rz将hw_win7虚拟机上的spark安装包上传到master虚拟机/opt目录

2、将spark安装包解压到master虚拟机指定目录

执行命令：tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local

3、配置spark环境变量

执行命令：vim /etc/profile

JAVA_HOME=/usr/local/jdk1.8.0_231
HADOOP_HOME=/usr/local/hadoop-2.7.1
SPARK_HOME=/usr/local/spark-2.4.4-bin-hadoop2.7
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
export JAVA_HOME HADOOP_HOME SPARK_HOME PATH CLASSPATH

存盘退出后，执行命令：source /etc/profile，让配置生效
查看spark安装目录（bin、sbin和conf三个目录很重要）

4、编辑spark环境配置文件 - spark-env.sh

进入spark配置目录后，执行命令：cp spark-env.sh.template spark-env.sh与vim spark-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_231
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

JAVA_HOME：指定JAVA_HOME的路径。若集群中每个节点在/etc/profile文件中都配置了JAVA_HOME，则该选项可以省略，Spark集群启动时会自动读取。为了防止出错，建议此处将该选项配置上。
SPARK_MASTER_HOST：指定集群主节点（Master）的主机名，此处为master。
SPARK_MASTER_PORT：指定Master节点的访问端口，默认为7077。
存盘退出，执行命令：source spark-env.sh，让配置生效

5、创建slaves文件，添加从节点

执行命令：vim slaves
添加两个从节点的主机名
存盘退出

（二）在slave1从节点上安装配置Spark

1、把master虚拟机上的spark安装目录分发给slave1虚拟机

执行命令：scp -r $SPARK_HOME root@slave1:$SPARK_HOME

2、将master虚拟机上环境变量配置文件分发到slave1虚拟机

在master虚拟机上，执行命令：scp /etc/profile root@slave1:/etc/profile
在slave1虚拟机上，执行命令：source /etc/profile

3、在slave1虚拟机上让spark环境配置文件生效

执行命令：source spark-env.sh

（三）在slave2从节点上安装配置Spark

1、把master虚拟机上的spark安装目录分发给slave2虚拟机

执行命令：scp -r $SPARK_HOME root@slave2:$SPARK_HOME

2、将master虚拟机上环境变量配置文件分发到slave2虚拟机

在master虚拟机上，执行命令：scp /etc/profile root@slave2:/etc/profile
在slave2虚拟机上，执行命令：source /etc/profile

3、在slave2虚拟机上让spark环境配置文件生效

执行命令：source spark-env.sh

五、启动并使用Spark Standalone模式的集群

Spark standalone模式下使用的是Spark自带的资源调度框架，但是一般我们把数据保存在HDFS上，也就是用HDFS做数据的持久化，所以hadoop还是需要配置，但是可以只配置HDFS相关的，而Hadoop YARN不需要配置。启动Spark Standalone模式的集群，不需要启动YARN服务，因为Spark会使用自带的资源调度框架。

（一）启动hadoop的dfs服务

在master虚拟机上执行命令：start-dfs.sh

（二）启动Spark集群

在master虚拟机上进入spark安装目录下的sbin子目录，执行命令：./start-all.sh

查看start-all.sh的源码，其中有以下两条命令：

# Start Master
"${SPARK_HOME}/sbin"/start-master.sh
# Start Worker
s"${SPARK_HOME}/sbin"/start-slaves.sh

可以看到，当执行start-all.sh命令时，会分别执行start-master.sh命令启动Master，执行start-slaves.sh命令启动Worker。
注意，若spark-evn.sh中配置了SPARK_MASTER_HOST属性，则必须在该属性指定的主机上启动Spark集群，否则会启动不成功；若没有配置SPARK_MASTER_HOST属性，则可以在任意节点上启动Spark集群，当前执行启动命令的节点即为Master节点。
启动完毕后，分别在各节点执行jps命令，查看启动的Java进程。若在master节点存在Master进程，slave1节点存在Worker进程，slave2节点存在Worker进程，则说明集群启动成功。
查看master节点进程
查看slave1节点进程
查看slave2节点进程

（三）访问Spark的WebUI

在hw_win7虚拟机上，访问http://master:8080

（四）启动Scala版Spark Shell

执行命令：spark-shell --master spark://master:7077
在/opt目录里执行命令：vim test.txt
在HDFS上创建park目录，将test.txt上传到HDFS的/park目录
在其它虚拟机上也可以查看到该文件
读取HDFS上的文件，创建RDD
查看第一行内容

（五）提交Spark应用程序

1、提交语法格式

Spark提供了一个客户端应用程序提交工具spark-submit，使用该工具可以将编写好的Spark应用程序提交到Spark集群。
spark-submit的使用格式如下：$ bin/spark-submit [options] <app jar> [app options]
options表示传递给spark-submit的控制参数；
app jar表示提交的程序JAR包（或Python脚本文件）所在位置；
app options表示jar程序需要传递的参数，例如main()方法中需要传递的参数。

2、案例演示 - 提交Spark自带的求圆周率的程序

启动Spark Standalone模式的集群
将Spark自带的求圆周率的程序提交到集群，进入Spark安装目录，执行命令

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://master:7077 \
./examples/jars/spark-examples_2.11-2.4.4.jar

上述命令中的–master参数指定了Master节点的连接地址。该参数根据不同的Spark集群模式，其取值也有所不同，常用取值如下表所示。

取值	描述
spark://host:port	Standalone模式下的Master节点的连接地址，默认端口为7077
yarn	连接到YARN集群。若YARN中没有指定ResourceManager的启动地址，则需要在ResourceManager所在的节点上进行应用程序的提交，否则将因找不到ResourceManager而提交失败
local	运行本地模式，使用1个CPU核心
local [N]	运行本地模式，使用N个CPU核心。例如，local[2]表示使用两个CPU核心运行程序
local[*]	运行本地模式，尽可能使用最多的CPU核心

若不添加–master参数，则默认使用本地模式local[*]运行。

3、spark-submit常用参数

除了–master参数外，spark-submit还提供了一些控制资源使用和运行时环境的参数。在Spark安装目录中执行以下命令，列出所有可以使用的参数
在Standalone模式下，将Spark自带的求圆周率的程序提交到集群，并且设置Driver进程使用内存为512MB，每个Executor进程使用内存为1GB，每个Executor进程所使用的CPU核心数为2，提交方式为cluster（Driver进程运行在集群的工作节点中），执行命令如下：

bin/spark-submit \
--master spark://master:7077 \
--deploy-mode cluster \
--class org.apache.spark.examples.SparkPi \
--driver-memory 512m \
--executor-memory 1g \
--executor-cores 2 \
./examples/jars/spark-examples_2.11-2.4.4.jar

在Spark On YARN模式下，以同样的应用配置运行上述例子，只需将参数–master的值改为yarn即可，命令如下：

bin/spark-submit \
--master spark://master:7077 \
--deploy-mode yarn \
--class org.apache.spark.examples.SparkPi \
--driver-memory 512m \
--executor-memory 1g \
--executor-cores 2 \
./examples/jars/spark-examples_2.11-2.4.4.jar

注意Spark不同集群模式下应用程序的提交，提交命令主要是参数–master的取值不同，其他参数的取值一样。

（六）关闭Spark服务

在master节点执行命令：stop-master.sh与stop-slaves.sh

Spark基础学习笔记05：搭建Spark Standalone模式的集群相关推荐

Spark基础学习笔记：搭建spark on yarn 集群
一.Spark On YARN架构 Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己实现,因此可能在YARN上同时运行MapReduce ...
Spark基础学习笔记05：搭建Spark Standalone集群
文章目录零.本讲学习目标一.Spark Standalone架构 (一)client提交方式 (二)cluster提交方式二.Spark集群拓扑 (一)集群拓扑 (二)集群角色分配三.搭建三节 ...
Spark基础学习笔记22：Spark RDD案例分析
文章目录零.本讲学习目标一.案例分析:Spark RDD实现单词计数 (一)案例概述 (二)实现步骤 1.新建Maven管理的Spark项目 2.添加Scala和Spark依赖 3.创建WordC ...
Spark基础学习笔记02：Spark运行时架构
文章目录零.本讲学习目标一.Spark运行时架构二.YARN集群架构 (一)YARN集群主要组件 1.ResourceManager - 资源管理器 2.NodeManager - 节点管理器 ...
2022年Spark基础学习笔记目录
一.Spark学习笔记在私有云上创建与配置虚拟机 Spark基础学习笔记01:初步了解Spark Spark基础学习笔记02:Spark运行时架构 Spark基础学习笔记03:搭建Spark单机版环 ...
Spark基础学习笔记16：创建RDD
文章目录零.本讲学习目标一.RDD为何物 (一)RDD概念 (二)RDD示例 (三)RDD主要特征二.做好准备工作 (一)准备文件 1.准备本地系统文件 2.准备HDFS系统文件 (二)启动Sp ...
2022年Spark基础学习笔记
一.Spark学习笔记在OpenStack私有云上创建与配置虚拟机 Spark基础学习笔记01:初步了解Spark Spark基础学习笔记02:Spark运行时架构 Spark基础学习笔记03:搭建 ...
Spark基础学习笔记06：搭建Spark On YARN模式的集群
文章目录零.本讲学习目标一.在Spark Standalone模式的集群基础上修改配置二.运行Spark应用程序 (一)启动Hadoop的HDFS和YARN (二)运行Spark应用程序 (三) ...
Spark基础学习笔记10：Scala集成开发环境
文章目录零.本讲学习目标一.搭建Scala的Eclipse开发环境 (一)安装Scala插件 (二)创建Scala项目二.搭建Scala的IntelliJ IDEA开发环境 (一)启动IDEA ...