Spark伪分布式搭建与SparkYarn搭建

Spark伪分布式搭建教程(Standalone:Master+Slave)

分析：
1.配置好IP
2.修改好主机名
3.做好IP映射
4.关闭防火墙
5.安装好Java（请参考Linux-Java安装文档，如果已经安装可以忽略）
6.安装好Hadoop(请参考Hadoop伪分布式搭建或Hadoop完全分布式)
7.安装scala
8.配置SSH
9.配置伪分布式集群
软件提取链接:https://pan.baidu.com/s/1oxBcv6xRavVtxmBPzEWHuQ 提取码:1000

1.IP配置

[root@localhost ~]#vim /etc/sysconfig/network-scripts/ifcfg-ens33
#修改
ONBOOT=yes
BOOTPROTO=static
#添加,网关以当前实际网关为主
IPADDR=192.168.15.100
NETMASK=255.255.255.0
GATEWAY=192.168.15.2
DNS1=114.114.114.114
DNS2=192.168.15.2
[root@localhost ~]#ifconfig

如果使用ifconfig命令能看到inet显示为192.168.17.100即IP配置成功。此处我使用的IP为104请以实际配置为主。

2.修改好主机名

[root@localhost ~] # vim /etc/sysconfig/network
#删除原有内容，添加如下字段
HOSTNAME=hadoop
[root@localhost ~] #hostname hadoop
[root@localhost ~] #exit

3.做好IP映射

[root@hadoop ~] # vim /etc/hosts
#添加一行
192.168.15.100 hadoop

4.关闭防火墙

[root@hadoop ~] #systemctl stop firewalld.service
[root@hadoop ~] #systemctl disable firewalld.service

5.Java安装

https://blog.csdn.net/qq_50835159/article/details/117632199?spm=1001.2014.3001.5501

6.Hadoop安装并启动

伪分布式:
https://blog.csdn.net/qq_50835159/article/details/117657708?spm=1001.2014.3001.5502
完全分布式:
https://blog.csdn.net/qq_50835159/article/details/117595062?spm=1001.2014.3001.5502

7.安装Scala

https://blog.csdn.net/qq_50835159/article/details/117660529?spm=1001.2014.3001.5502

8.配置SSH免密登入

[root@hadoop ~]#cd .ssh
如果显示没有就执行 mkdir .ssh再执行cd .ssh
[root@hadoop .ssh] #ssh-keygen -t rsa
三下回车
[root@hadoop .ssh] #ssh-copy-id hadoop
输入yes，然后输入密码就完成了免密登入

9.配置Spark伪分布式

（软件安装包统一发/opt/software）
[root@hadoop software]#tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /usr/local/

配置Spark全局变量引入Spark
[root@hadoop software]#vim /etc/profile
export SPARK_HOME=/usr/local/spark-3.0.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
export PATH=$SPARK_HOME/sbin:$PATH
[root@hadoop software]#source /etc/profile

拷贝spark-env.sh.template为spark-env.sh,配置spark-env.sh
[root@hadoop software]#cd /opt/module/spark-3.0.1-bin-hadoop2.7/conf
[root@ hadoop conf]#cp spark-env.sh.template spark-env.sh
[root@ hadoop conf]#vim spark-env.sh
#添加如下内容
#引入java
export JAVA_HOME=/usr/local/jdk1.8.0_144
#引入scala
export SCALA_HOME=/usr/local/scala-2.11.12
#引入hadoop
export HADOOP_HOME=/usr/local/hadoop-2.7.2
#引入hadoop配置文件
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.2/etc/hadoop
#指定Master节点
export SPARK_MASTER_IP=hadoop
#指定work工作节点
export SPARK_LOCAL_IP=hadoop
#指定Master 访问端口
export SPARK_MASTER_PORT=7077

启动spark
[root@ hadoop conf]#cd ..
[root@ hadoop spark-3.0.1-bin-hadoop2.7]#cd sbin/
[root@ hadoop sbin]#./start-all.sh
[root@ hadoop sbin]#jps
10515 Master
9668 NameNode
11668 Jps
9945 SecondaryNameNode
10186 NodeManager
10091 ResourceManager
10587 Worker
9791 DataNode

Spark-Yarn

配置Hadoop yarn-site.xml配置文件,因为要使用Yarn资源调度引擎
[root@ hadoop ~]#cd /usr/local/hadoop-2.7.2/etc/hadoop
[root@ hadoop hadoop]#vim yarn-site.xml
<!-- 是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接>将其杀死,默认true-->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<!-- 是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出内存分配值,则>直接将其杀死,默认true-->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

拷贝spark-env.sh.template为spark-env.sh,配置spark-env.sh
[root@ hadoop hadoop]#cd /usr/local/spark-3.0.1-bin-hadoop2.7/conf
[root@ hadoop conf]#cp spark-env.sh.template spark-env.sh
[root@ hadoop conf]#vim spark-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_144
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.2/etc/hadoop