使用安装包版本:
spark-2.0.0-bin-hadoop2.6
下载地址 https://spark.apache.org/

Spark概述

Apache Spark是一个快速的通用集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持常规执行图的优化引擎。

一、安装

1、解压

[root@master app] # tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz -C /usr/local/src/
[root@master app]# cd /usr/local/src/
[root@master src]# ls
anaconda-ks.cfg        hbase-1.2.0       mysql                          zookeeper-3.4.5
apache-hive-1.2.2-bin  jdk1.8.0_221      spark-2.0.0-bin-hadoop2.6
hadoop-2.6.0           kafka_2.11-1.0.0  sqoop-1.4.7.bin__hadoop-2.6.0
[root@master src]# cd sqoop-1.4.7.bin__hadoop-2.6.0/

2、环境变量

[root@master conf]# vi ~/.bash_profile
[root@master conf]# source ~/.bash_profile
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export SQOOP_HOME=/usr/local/src/sqoop-1.4.7.bin__hadoop-2.6.0
export PATH=$PATH:$SQOOP_HOME/bin

3、配置spark-env.sh

环境变量

通过环境变量配置确定的Spark设置。环境变量从Spark安装目录下的conf/spark-env.sh脚本读取(或者windows的conf/spark-env.cmd)。在独立的或者Mesos模式下,这个文件可以给机器确定的信息,如主机名。当运行本地应用程序或者提交脚本时,它也起作用。
注意,当Spark安装时,conf/spark-env.sh默认是不存在的。你可以复制conf/spark-env.sh.template创建它。
可以在spark-env.sh中设置如下变量:

[root@master conf]# pwd
/usr/local/src/spark-2.0.0-bin-hadoop2.6/conf
[root@master conf]# cp spark-env.sh.template spark-env.sh
[root@master conf]# vi spark-env.shexport JAVA_HOME=/usr/local/src/jdk1.8.0_221
# export SCALA_HOME=/usr/etc/scala-2.12.4 # 未安装SCALA
export HADOOP_HOME=/usr/local/src/hadoop-2.6.0
export HADOOP_CONF_DIR=/usr/local/src/hadoop-2.6.0/etc/hadoop# 本机名 master 在/etc/hosttname映射了自身IP
export SPARK_MASTER_IP=masterexport SPARK_HOME=/usr/local/src/spark-2.0.0-bin-hadoop2.6
export SPARK_DIST_CLASSPATH=$(/usr/local/src/hadoop-2.6.0/bin/hadoop classpath)
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

变量说明
- JAVA_HOME:Java安装目录
- SCALA_HOME:Scala安装目录
- HADOOP_HOME:hadoop安装目录
- HADOOP_CONF_DIR:hadoop集群的配置文件的目录
- SPARK_MASTER_IP:spark集群的Master节点的ip地址
- SPARK_WORKER_MEMORY:每个worker节点能够最大分配给exectors的内存大小
- SPARK_WORKER_CORES:每个worker节点所占有的CPU核数目
- SPARK_WORKER_INSTANCES:每台机器上开启的worker节点的数目

4、添加配置项到spark-default.conf

按需调整,增加运算速度,合理资源调度

[root@master conf]# pwd
/usr/local/src/spark-2.0.0-bin-hadoop2.6/conf
[root@master conf]# cp spark-defaults.conf.template  spark-defaults.conf
[root@master conf]# vi spark-defaults.conf
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:9000/Spark/historyserverforSpark
spark.yarn.historyServer.address master:18080
spark.history.fs.logDirectory hdfs://master:9000/Spark/historyserverforSpark
spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

参数说明 http://spark.apache.org/docs/1.6.1/configuration.html

5、 在hdfs上创建文件

[root@master jars]# hdfs dfs -mkdir /Spark/
[root@master jars]# hdfs dfs -mkdir /Spark/historyserverforSpark

6、配置slaves

[root@master conf]# cp slaves.template slaves
[root@master conf]# vi slaves
# A Spark Worker will be started on each of the machines listed below.
slave1
slave2

7、删除spark的slf4Jar包,因为hadoop有这个Jar包了

[root@master jars]# pwd
/usr/local/src/spark-2.0.0-bin-hadoop2.6/jars
[root@master conf]# rm slf4j-log4j12-1.7.16.jar

8、scp

[root@master conf]# scp ~/.bash_profile slave1:~/.bash_profile[root@master conf]# scp ~/.bash_profile slave2:~/.bash_profile[root@master conf]# scp -r /usr/local/src/spark-2.0.0-bin-hadoop2.6/ slave1:/usr/local/src
[root@master conf]# scp -r /usr/local/src/spark-2.0.0-bin-hadoop2.6/ slave2:/usr/local/src

二、启动Spark集群

1、启动hadoop的HDFS文件系统

因为我们只需要使用hadoop的HDFS文件系统,所以我们并不用把hadoop全部功能都启动。

[root@master conf]# start-dfs.sh
[root@master conf]# jps
2418 Jps
2166 JournalNode
1959 DataNode
1849 NameNode
2361 DFSZKFailoverController
[root@master conf]#

2、启动Spark,

因为hadoop/sbin以及spark/sbin均配置到了系统的环境中,它们同一个文件夹下存在同样的start-all.sh文件。最好是打开spark-2.2.0,在文件夹下面打开该文件。这个可以改名然后加入环境变量
./sbin/start-all.sh

[root@master spark-2.0.0-bin-hadoop2.6]# cd sbin/
[root@master sbin]# ls
slaves.sh                  start-mesos-shuffle-service.sh  stop-mesos-dispatcher.sh
spark-config.sh            start-shuffle-service.sh        stop-mesos-shuffle-service.sh
spark-daemon.sh            start-slave.sh                  stop-shuffle-service.sh
spark-daemons.sh           start-slaves.sh                 stop-slave.sh
start-all.sh               start-thriftserver.sh           stop-slaves.sh
start-history-server.sh    stop-all.sh                     stop-thriftserver.sh
start-master.sh            stop-history-server.sh
start-mesos-dispatcher.sh  stop-master.sh
[root@master sbin]# pwd
/usr/local/src/spark-2.0.0-bin-hadoop2.6/sbin
[root@master sbin]# ./start-all.sh
[root@master sbin]# jps
2483 Master
2166 JournalNode
1959 DataNode
1849 NameNode
2361 DFSZKFailoverController
2589 Jps

出现 Master 验证成功

3、打开 slave1 slave2

[root@slave1 ~]# jps
3250 Jps
1875 JournalNode
1780 DataNode
3160 Worker
2473 QuorumPeerMain
2634 DFSZKFailoverController
2957 NameNode
[root@slave2 ~]# jps
2096 QuorumPeerMain
1717 DataNode
2504 Jps
2413 Worker
[root@slave2 ~]#

出现 Worker 验证成功

4、打开spark

[root@master sbin]# spark-shellWelcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//___/ .__/\_,_/_/ /_/\_\   version 2.0.0/_/Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_221)
Type in expressions to have them evaluated.
Type :help for more information.scala>

5、打开 master:8080

Spark 安装配置及下载地址相关推荐

  1. 适合装u盘的linux系统下载软件,ghost xp系统镜像安装win7系统下载地址适合装u盘的linux...

    在此记录一下,以备后患! 操作系统:windows7 X64 旗舰版 环境:域环境下 故障:共享打印机提示0x000006d9错误 错误窗口 解决方法 1.进入管理 2.进入服务和应用程序 3.找到W ...

  2. Spark安装配置和基础编程

    Spark安装配置和基础编程 重要知识点: Spark是一个开源的可应用于大规模数据处理的分布式计算框架,该框架可以独立安装使用,也可以和Hadoop一起安装使用.为了让Spark可以使用HDFS存取 ...

  3. Linux环境Spark安装配置及使用

    Linux环境Spark安装配置及使用 1. 认识Spark (1) Spark介绍 大数据计算引擎 官网:spark.apache.org/ 官方介绍:Apache Spark™ is a unif ...

  4. spark 安装配置

    最佳参考链接 https://opensourceteam.gitbooks.io/bigdata/content/spark/install/spark-160-bin-hadoop26an_zhu ...

  5. SQL 2008 安装资料及下载地址

    SQL Server 2008 序列号: Developer: PTTFM-X467G-P7RH2-3Q6CG-4DMYB Enterprise: JD8Y6-HQG69-P9H84-XDTPG-34 ...

  6. Spark 安装配置简单测试

    简介 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce ...

  7. Spark安装配置指南

    张佩云教授让我们做的学校服务器搭建Spark集群,网上的配置过程乍一看很容易,可我中间遇到了无数的问题...现在搭建成功了,把实际搭建过程和要点总结了一下. 创建hadoop用户 如果你安装 Ubun ...

  8. java ee 下载 安装配置_JavaEE下载安装及配置.doc

    JavaEE下载安装及配置 Apache Tomcat下载安装及配置 下载 Tomcat6.X最新版本官网下载地址:/tomcat/tomcat-6/v6.0.35/bin/ 右键迅雷下载即可. 安装 ...

  9. 在Ubuntu上安装配置 Gitlab -- 下载程序包后快速安装部署

    使用的 Ubuntu 16.04 LTS 版本 下载程序包进行安装,程序包地址: 国内地址(只有*.deb程序包): https://mirrors.tuna.tsinghua.edu.cn/gitl ...

最新文章

  1. 切客软件诞生,给切客全新的购物消费体验
  2. linux安装mysql、卸载mysql、设置mysql
  3. 利用Photoshop减小照片景深
  4. 转载:Apache commons开源工具简介
  5. Microsoft.CSharp.dll程序集的作用
  6. [转]使用VS2010的Database 项目模板统一管理数据库对象
  7. java swing 图片切换_在一个界面中要实现图片切换,用java要肿么实现??
  8. 如何高效阅读 Spark 和 Hadoop 这类大型开源项目源代码?
  9. 植被农业数据下载网站整理
  10. HDU 3533 Escape
  11. Linux课程设计报告【全集】
  12. QQ2010登录协议分析-目前可取得sessionkey
  13. github提交时报错:remote: Support for password authentication was removed on August 13, 2021问题解决方案
  14. preempt_disable导致的cyclictest测试延时超标
  15. SAP 采购订单税率计算、单价取值(S4)
  16. 显示前半内容后半内容用省略号_2015年广东中考满分作文赏析:特别的一朵花_1500字...
  17. 9x07-usb state拔出usb线后状态仍为CONFIGURED,影响休眠(已解决)
  18. 【行人轨迹预测数据集——ETH、UCY】
  19. 河南科技大学计算机信息安全技术考试,河南科技大学军事理论试题4
  20. mysql 幕客网_MYSQL 基本使用 for Mac

热门文章

  1. mac装机系列:每次打开iTerm都需要source bash_profile问题
  2. 二极管反向恢复时间和反向恢复电流
  3. Python IDLE 以及常用函数
  4. 管路系统设计的必备技能Routing,快速绘制复杂走向
  5. 一个人最重要的是什么?
  6. 首次使用idea需要配置哪些东西?
  7. 雅虎网站性能优化的34条黄金规则
  8. 小程序开发文档中没有告诉你的一些事情
  9. 安全的将动态磁盘转为基本磁盘
  10. TensorFlow练手项目三:使用VGG19迁移学习实现图像风格迁移