Spark的Yarn模式及其案例

基本概念

独立部署（Standalone）模式由Spark 自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是也要记住，Spark 主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。

Yarn模式搭建

1. 解压缩文件

将spark-3.0.0-bin-hadoop3.2.tgz 文件上传到linux 并解压缩，放置在指定位置。
(1)解压文件

[root@hadoop102 software]# tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

（2）修改文件名

[root@hadoop102 software]# cd /opt/module
[root@hadoop102 module]# mv spark-3.0.0-bin-hadoop3.2 spark-yarn

2.修改配置文件

（1）修改 hadoop 配置文件/opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml,

[root@hadoop102 module]# cd /opt/module/hadoop-2.7.2/etc/hadoop
[root@hadoop102 hadoop]# vim yarn-site.xml

添加内容

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property><!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

（2）分发yarn-site.xml

[root@hadoop102 hadoop]# xsync yarn-site.xml

（3）修改Spark-yarn的conf/spark-env.sh，添加JAVA_HOME 和YARN_CONF_DIR 配置

修改文件名

[root@hadoop102 conf]# mv spark-env.sh.template spark-env.sh

修改文件内容

export JAVA_HOME=/opt/module/jdk1.8.0_144
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

启动集群

（1）hadoop集群

[root@hadoop102 hadoop-2.7.2]# sbin/start-all.sh

[root@hadoop103 hadoop-2.7.2]# sbin/start-yarn.sh

（2）启动spark

[root@hadoop102 spark-yarn]# sbin/start-all.sh

测试Spark中examples案例

1. 提交应用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

2.Web 页面查看日志

查看http://hadoop103:8088 页面

配置历史服务器

1.具体步骤

（1）看配置历史服务器的博客

（2）相对前面的参考博客，需要增加的东西
修改 spark-defaults.conf

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

2.重新提交应用

（1）启动历史服务

[root@hadoop102 spark-yarn]# sbin/start-history-server.sh

（2）重新提交应用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

3.Web 页面查看日志

（1）查看日志http://hadoop103:8088

（2）点击History