Spark standalone 模式下的集群部署

版本！

需要注意两点：

（1）使用的Hadoop必须是 2.0 系列，比如 0.23.x，2.0.x，2.x.x或CDH4、CDH5 等，将 Spark 运行在 Hadoop 上，本质上是将 Spark 运行在 Hadoop YARN 上，因为 Spark 自身只提供了作业管理功能，资源调度要依托于第三方系统，比如 YARN 或 Mesos 等
（2）之所以不采用Mesos而是YARN，是因为YARN拥有强大的社区支持，且逐步已经成为资源管理系统中的标准。（事实标准）

一、准备工作

（1）安装 jdk （建议 jdk7 以上）

[root@hadoop0 ~]# echo $JAVA_HOME
/usr/local/jdk
[root@hadoop0 ~]# java -version
java version "1.8.0_73"
Java(TM) SE Runtime Environment (build 1.8.0_73-b02)
Java HotSpot(TM) Client VM (build 25.73-b02, mixed mode)

（2）安装 scala（2.10.4）

[root@hadoop0 ~]# echo $SCALA_HOME
/usr/local/scala
[root@hadoop0 ~]# scala -version
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL

（3）安装 hadoop 2.x（至少提供 hdfs）

本文 hadoop 版本为 spark-1.3.0-bin-hadoop2.4.tgz

[root@hadoop0 ~]# cd /usr/local/hadoop-2.6.0-cdh5.4.0
[root@hadoop0 hadoop-2.6.0-cdh5.4.0]# ./sbin/hadoop-daemon.sh start namenode
[root@hadoop0 hadoop-2.6.0-cdh5.4.0]# ./sbin/hadoop-daemon.sh start datanode

在浏览器的地址栏输入：http://hadoop0:9000，进行验证

二、配置 Spark

本文采用的 spark 版本为：spark-1.6.1-bin-hadoop2.6.tgz。

下载、解压，就不必多说

修改配置文件

.template 文件后缀的含义即是，

（1）这是模板，这些配置只是大体的模板形式的给出配置，
（2）这些模板不可直接使用，需由客户重命名且指定属性值之后才可生效

（1）spark-env.sh.template

（1）重命名
```
mv spark-env.sh.tempalte spark-env.sh
```

（2）增加三个可选的（最好选）的路径：

JAVA_HOME=/usr/local/jdk
SCALA_HOME=/usr/local/scala
HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.4.0/etc/hadoop

（3）做如下设置

SPARK_MASTER_IP=hadoop0
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1000m
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1

（2）slaves.template

（1）重命名
```
mv slaves.template slaves
```
（2）添加本机主机名
```
hadoop0
```

（3）spark-defaults.conf.template

（1）重命名

mv spark-defaults.conf.template spark-defaults.conf

（2）增加一个条目
```
spark.master spark://hadoop0:7077
```

三、验证

（1）jps 查看运行中的 java 进程
```
[root@hadoop0 ~]# jps
```
（2）Web UI 在浏览器端查看

在浏览器地址栏输入：http://hadoop0:8080/

Spark standalone 模式下的集群部署相关推荐

CentOS7下Elasticsearch集群部署记录
Elasticsearch是一个分布式搜索服务,提供Restful API,底层基于Lucene,采用多shard的方式保证数据安全,并且提供自动resharding的功能,github等大型的站点也 ...
Elasticsearch——Windows下ES集群部署 Linux下ES单节点、集群部署
1.开篇在之前的两篇文章中,说白了就是在windows下部署的ES单节点的环境. 这篇文章主要是说一下windows下部署ES集群.Linux下单节点部署. 单台 Elasticsearch 服务器 ...
spark StandAlone模式下的作业提交流程
spark StandAlone也有两种作业提交模式,client 和 cluster模式,以下以cluster为例说明提交代码 ./spark-submit \ --class org.apach ...
Centos6下RocketMQ集群部署记录
一.RocketMQ基础知识介绍 Apache RocketMQ是阿里开源的一款高性能.高吞吐量.队列模型的消息中间件的分布式消息中间件. 上图是一个典型的消息中间件收发消息的模型,RocketMQ也 ...
redis搭建主从哨兵模式＋分片集群部署(redis系列二)
前言:在前一章了解redis的基本介绍后,这一章主要介绍redis的实战部署,文章有点长请一步步耐心看完,我相信肯定会有收获的,这里用的资源包是2022年最新的redis版本可能会跟旧版本不同,在此章 ...
大数据之-Hadoop完全分布式_完全分布式模式下的集群配置---大数据之hadoop工作笔记0034
然后前面我们准备好了,完全分布式下用的集群环境,下面我们,开始配置hadoop集群我们这里用hadoop102,hadoop103,hadoop104 这3台机器. 需要hadoop102,103, ...
Apache+Tomcat+jk windows环境下的集群部署
记一次在Windows服务器上搭建apatch+tomcat+jk的集群搭建过程,其中也遇到了很多问题,总结一下. 一.准备工作 1.apache-tomcat-7.0.88 2.Apche http ...
SPARK安装二：HADOOP集群部署
一.hadoop下载使用2.7.6版本,因为公司生产环境是这个版本 cd /opt wget http://mirrors.hust.edu.cn/apache/hadoop/common/hado ...
Spark基础学习笔记05：搭建Spark Standalone模式的集群
文章目录零.本讲学习目标一.Spark集群拓扑 (一)集群拓扑 (二)集群角色分配二.搭建集群 (一)私有云上创建三台虚拟机 (二)利用SecureCRT登录三台虚拟机 1.登录master虚拟 ...

Spark standalone 模式下的集群部署

一、准备工作

二、配置 Spark

三、验证

Spark standalone 模式下的集群部署相关推荐

最新文章

热门文章