Spark- Linux下安装Spark

前期部署

1.JDK安装,配置PATH

可以参考之前配置hadoop等配置

2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压

[root@srv01 ~]# tar -xvzf  spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6

3.在 /usr 下创建软链接到目标文件夹

[root@srv01 usr]# ln -s spark-1.6.1-bin-hadoop2.6   spark

4.修改配置文件,目标目录 /usr/spark/conf/

[root@srv01 conf]# ls
docker.properties.template  log4j.properties.template    slaves.template               spark-env.sh.template
fairscheduler.xml.template  metrics.properties.template  spark-defaults.conf.template

这里需要把spark-env.sh.template改名为spark-env.sh
export JAVA_HOME=/usr/jdk
#这个是单机版的配置,不能实现高可用
export SPARK_MASTER_IP=srv01
export SPARK_MASTER_PORT=7077

再配置slaves ,都是我的集群的机器的hostname

srv01
srv02
srv03

5.分发到集群各个机器上,再软链接一下,保持集群一致性,参考step-3

[root@srv01 usr]# scp -r spark-1.6.1-bin-hadoop2.6  srv02:/usr
[root@srv01 usr]# scp -r spark-1.6.1-bin-hadoop2.6  srv03:/usr

6.Spark-sell

配置好,启动spark-shell,注意记得先关闭防火墙(也可以将spark写进PATH中)

输入 sc ,如果显示下面的,表示安装正常

scala> sc
res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@18811c42

7.测试单词计算案例

scala> sc.textFile("/root/file.log").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect.toBuffer
res7: scala.collection.mutable.Buffer[(String, Int)] = ArrayBuffer((scala,2), (spark,2), (hive,1), (hadoop,2), (mapreduce,1), (zookeeper,1), (hello,1), (redis,1), (world,1))

8.启动Spark集群模式(前提是3台机器的spark配置一样,配置文件spark-env.sh和slaves文件保持一致)

进入Spark的sbin目录下启动
./start-all.sh

这个脚本文件在sbin目录

通过Jps查看角色

[root@srv01 conf]# jps

13079 Master

13148 Worker  //这个worker的启动通过配置文件slaves

13234 Jps

下面是我的slaves的配置文件

srv01
srv02
srv03

slaves配置的决定了在哪几台机器上启动worker

下面的配置文件决定了在哪台机器上启动Master

启动Spark集群(如果有使用hdfs的场景,需要把hadoop的conf目录下的core-site.xml和dhfs-site.xml拷贝到spark的conf目录下,才能使用高可用的hdfs url)

 

然后在通过网页查看spark的相关信息:

http://192.168.1.88:8080/

执行第一个Spark程序

指定运行程序的主机名(Master)

./spark-submit --class org.apache.spark.examples.SparkPi --master spark://srv01:7077  --executor-memory 1G --total-executor-cores 2 /usr/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar 500

IDEA上面编码使用集群上的spark运行程序

package com.rz.spark.baseimport org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}object transactionApp {def main(args: Array[String]): Unit = {Logger.getLogger("org.apache.spark").setLevel(Level.OFF)val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("spark://hdp:7077")val sc = new SparkContext(conf)val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8,9))println(rdd1.partitions.length)sc.stop()}
}

  

转载于:https://www.cnblogs.com/RzCong/p/7447638.html

Spark- Linux下安装Spark相关推荐

  1. Linux下安装配置各种软件和服务

    1. JDK 1.1. 解压Linux版本的JDK压缩包 yum -y install glibc.i686 #安装jdk源glibc(需要联网下载源) mkdir /usr/local/src/jd ...

  2. linux下安装sbt_如何在Linux上安装SBT

    linux下安装sbt 介绍 (Introduction) Hi! I am Sanjula, and in this guide I hope to teach you how to install ...

  3. Linux下安装Oracle参数自动初始化脚本

    在linux下安装Oracle通常是一件很头疼的事情, 而如果我们只是为了部署CMS的话,也没有必要对Oracle的参数去做详细的了解. 那么有没有办法简化这个安装过程呢? 下面给出了一个在Linux ...

  4. Linux下安装和使用boost库

    Linux下安装和使用boost库 2016-08-26 20:29:06 zhaomax 阅读数 349更多 分类专栏: C++ 用boost库中的serialization库.Boost库分为两个 ...

  5. SIPp工具Linux下安装

    2019独角兽企业重金招聘Python工程师标准>>> 一.SIPp介绍 SIPp是一个测试SIP协议性能的工具软件,这是一个开源软件.      它可使用INVITE和B YE建立 ...

  6. Linux下安装rabbitmq3.7.8

    Linux下安装rabbitmq 1.安装Erlang环境 1)安装GCC GCC-C++ Openssl等模块 2)安装ncurses 3)安装erlang环境 4)配置安装 5)验证是否安装成功 ...

  7. 如何在Linux下安装Docker

    如何在Linux下安装Docker Docker概念: Docker包括三个基本概念: l  镜像(Image) l  容器(Container) l  仓库(Repository) 理解了这三个概念 ...

  8. 如何在Linux下安装MySQL8.0

    如何在Linux下安装MySQL8.0 准备工作: mysql8.0 rpm文件 测试工具(比如 idea的database工具) 安装步骤: 1.     下载mysql的repo源,下载地址:ht ...

  9. Linux下安装Weblogic10.3.6并创建简单集群测试

    Linux下安装Weblogic10.3.6并创建简单集群进行测试 一.卸载随系统安装的openjdk 1.先查看安装的jdk信息,常用命令有rpm -qa | grep java, rpm -qa  ...

最新文章

  1. platform_driver_register适配的两种方式及probe是否启动与硬件关系
  2. rust(19)-进制
  3. Javascript 深入学习循环
  4. 【读书笔记】阅读的危险
  5. 深入浅出 Spring 架构设计
  6. Linux定时器接口
  7. 客户端能不等四次挥手就强制关闭 TCP 连接吗?
  8. 电脑出现 flash update failed 解决方法
  9. oracle和mysql数据实时同步_FileYee文件实时同步备份软件,再不怕数据丢失
  10. 上位机发送FINS UDP命令读写欧姆龙PLC数据
  11. 【Python系列】python文件或文本加密(4种方法)
  12. 计算机网络提供信息传输服务,计算机网络通常被划分为通信子网和资源子网,通信子网提供信息传输服务,资源子网提供共享资源。...
  13. 扫描电子显微镜(SEM)低真空技术改造以提升观测能力的解决方案
  14. 5月地图软件影响力报告:百度谷歌搜狗居前三甲
  15. 在线客服系统对接微信小程序(客服消息推送)
  16. 零遁NAS伴侣实现WOL远程唤醒
  17. 网页兼容性调好了么?
  18. 『重磅福利』提供WoS数据C1和EM重复字段清洗服务
  19. 流型Charting
  20. 【配色方案】可视化图表不知道怎么配色,来参考下顶尖公司的Logo配色方案~~

热门文章

  1. 12bit灰度图像映射到8bit显示及python 实现
  2. UFLDL教程: Exercise:Self-Taught Learning
  3. 分类算法中的ROC与PR指标
  4. sshfs的挂载与卸载
  5. JQuery对象与DOM对象的区别与转换
  6. android基础组件----Button的使用
  7. 在oracle中使用Trigger
  8. 入侵思路新手学习内容
  9. [转载]男生女生过家家呀
  10. vs code打开文件显示的中文乱码