一、spark的安装模式

1、本地模式(local),单点模式,非分布式模式,只需要用到一台机器;

2、standalone模式,是spark自己实现的独立调度器,它是一个资源调度框架;Spark可以通过部署与Yarn的架构类似的框架来提供自己的集群模式,该集群模式的架构设计与HDFS和Yarn大相径庭,都是由一个主节点多个从节点组成,在Spark 的Standalone模式中,主节点为master;从节点为worker;

3、Spark on Yarn模式和Spark on Mesos模式;

二、spark的standalone模式安装和启动

1、把 spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz 包解压到 目录下

tar spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6

2、/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/conf/slaves 文件,里面是域名列表,表示从节点,这里只填1个

hadoop-senior.ibeifeng.com

3、log4j.properties.template 复制一份,并重命名为 log4j.properties;表示启用日志;

4、spark-env.sh.template 复制一份;并重命名为 spark-env.sh;增加以下内容:

JAVA_HOME=/opt/modules/jdk1.7.0_79
SCALA_HOME=/opt/modules/scala-2.10.4HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoopSPARK_MASTER_IP=hadoop-senior.ibeifeng.com
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=2g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
SPARK_WORKER_DIR=1

5、spark-defaults.conf.template 复制一份;并重命名为 spark-defaults.conf;在最后一行加上内容:

spark.master                     spark://hadoop-senior.ibeifeng.com:7077

至此,standalone的配置完成;

6、启动hadoop单节点和退出安全模式;在/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6目录下依次运行命令:

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
bin/hdfs dfsadmin -safemode leave

7、启动spark的master和worker节点

有2种启动方式;

一键启动:

sbin/start-all.sh

或者逐个启动,先启动master再启动worker

sbin/start-master.sh
sbin/start-slaves.sh

8、验证有没有启动

可以通过jps命令查看有无进程,有master和worker说明启动成功

或者通过webui监控界面来看

通过浏览器访问 http://hadoop-senior.ibeifeng.com:8080/

三、spark-shell 的用法

1、启动spark-shell

在/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6目录运行命令

bin/spark-shell

会看到有scala的命令行输入框,说明已经启动成功;

scala> 

在spark监控界面 http://hadoop-senior.ibeifeng.com:8080/ 可以看到已经有应用在运行:

在spark-shell 的监控界面 http://hadoop-senior.ibeifeng.com:4040/jobs/ 可以看到已经运行spark-shell

2、SparkContext 读取hdfs上的文件

hdfs上有文件 /user/root/mapreduce/wordcount/input/wc.input

文件内容如下:

在spark-shell中运行命令,SparkContext 读取hdfs上的文件;hdfs路径得是全路径;读取完文件后生成RDD,类型为String;再用collect提交,

scala> sc.textFile("hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input")
res0: org.apache.spark.rdd.RDD[String] = hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input MapPartitionsRDD[1] at textFile at <console>:22
scala> res0.collect
res1: Array[String] = Array(hadoop hive, hive hadoop, hbase sqoop, hbase sqoop, hadoop hive)

可以再spark-shell监控界面看到任务

3、退出spark-shell的步骤

先停止 SparkContext,再退出 spark-shell

scala> sc.stop
scala> exit

四、master和worker的监控界面webui

在spark-env.sh中设置了master的端口,webui端口,设置了worker的端口,webui的端口;内容如下:

SPARK_MASTER_IP=hadoop-senior.ibeifeng.com
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=2g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
SPARK_WORKER_DIR=1

访问 http://hadoop-senior.ibeifeng.com:8080/ 可以看到master节点的状况;

如下图可看到,master端口为7077,有1个worker从节点,端口为7078;正在运行的有一个应用,应用名为“Spark shell”

访问 http://hadoop-senior.ibeifeng.com:8080/ 可以看到worker节点的状况;

如下图所示,worker端口为7078;executor序号为0,正在运行的有一个应用,应用名为“Spark shell”

访问http://hadoop-senior.ibeifeng.com:4040/executors/,spark-shell监控界面;

可以看到2个executor,序号为0的是worker的executor;driver的是 driver program(SparkContext)的executor;

【Spark】Spark安装和Spark-shell使用相关推荐

  1. Spark快速入门指南 – Spark安装与基础使用

    本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...

  2. 3.如何安装Apache Spark

    如何安装Apache Spark 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹 ...

  3. [Kafka与Spark集成系列二] Spark的安装及简单应用

    欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...

  4. Hadoop3 Hive Spark完整安装与实践

    大数据实践 Hadoop3 Hive Spark完全安装 在下载目录下打开终端,移动下载好的文件到/usr/local sudo mv 文件名 /usr/local 在/usr/local中解压文件 ...

  5. 3.Spark的安装(华为云学习笔记,Spark编程基础,大数据)

    Spark的安装 ① 在Linux系统中安装Spark: ② 运行Spark自带实例. 实验原理 -> Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.Sp ...

  6. Spark的安装(Standalone模式,高可用模式,基于Yarn模式)

    目录 spark的Standalone模式安装 一.安装流程 1.将spark-2.2.0-bin-hadoop2.7.tgz  上传到 /usr/local/spark/ 下,然后解压 2.进入到c ...

  7. PySpark大数据分析(1):Spark的安装与文件读取

    为什么使用PySpark Spark是大数据分析引擎,擅长批处理,支持部分机器学习算法的并行化.Spark支持Java,Scala,Python,以及R语言,其中使用Python进行编程的PySpar ...

  8. Kafka与Spark集成系列二Spark的安装及简单应用

    原 [Kafka与Spark集成系列二] Spark的安装及简单应用https://blog.csdn.net/u013256816/article/details/82082019版权声明:本文为博 ...

  9. 大数据之spark学习记录二: Spark的安装与上手

    大数据之spark学习记录二: Spark的安装与上手 文章目录 大数据之spark学习记录二: Spark的安装与上手 Spark安装 本地模式 Standalone 模式 基本配置 步骤1: 复制 ...

  10. Spark的安装和使用

    Spark2.1.0入门:Spark的安装和使用 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04) 手把手教你在VirtualBox ...

最新文章

  1. Open***异地机房互连以及负载均衡高可用解决方案
  2. Oracle ASM 翻译系列第七弹:高级知识 How many partners?
  3. python-Django收集主机信息
  4. 数据库系统概念总结:第七章 数据库设计和E-R模型
  5. 如何写一个好的方法-读Clean Code 有感
  6. kettle 数据提取效率提升
  7. Octopress使用中经验总结
  8. 《伟大的小细节:互联网产品设计中的微创新思维》——3.3 位置环境因素
  9. curl error code 60 51 代码解决方式
  10. springboot系列二、springboot项目搭建
  11. 使用django-admin 上传-下载 文件
  12. 中国姓氏数据库 java_中国姓的数据库(sql版),下你妹CSDN,又不是你的资源要你妹积分!...
  13. python和excel的优缺点_Excel不好吗?为什么非要学python?
  14. 深入理解linux网络pdf,深入理解Linux网络技术内幕 pdf epub mobi txt 下载
  15. python微博爬虫实战_爬虫实战——四大指数之微博指数(一)
  16. ToolBar修改返回按钮图标
  17. matlab中对于xf(x)的积分,[matlab 积分]MATLAB求积分?
  18. HDU-4539 郑厂长系列故事——排兵布阵 状态压缩DP Or 最大团
  19. 自成一派的风格楷体字体
  20. 线性加权平均 c语言程序,【求助】编的一个加权平均分计算程序,总是出错。求高手指点~...

热门文章

  1. 图像分割—灰度阈值分割
  2. 7.计算机病毒损坏某些硬件,区别计算机病毒与故障
  3. 【字面量与变量的区别】
  4. 交换机端口镜像及其工作原理
  5. ubuntu16火狐下载文件提示“无法保存,因为无法读取源文件”
  6. 使用jQuery完成小米官网图标
  7. R语言学堂推文索引-v5.8.1
  8. STM3日常使用笔记——启动方式
  9. unionid openid微信php,openid与unionid
  10. 标准化管理-(3)科研项目中的标准化审查