【Spark】Spark安装和Spark-shell使用
一、spark的安装模式
1、本地模式(local),单点模式,非分布式模式,只需要用到一台机器;
2、standalone模式,是spark自己实现的独立调度器,它是一个资源调度框架;Spark可以通过部署与Yarn的架构类似的框架来提供自己的集群模式,该集群模式的架构设计与HDFS和Yarn大相径庭,都是由一个主节点多个从节点组成,在Spark 的Standalone模式中,主节点为master;从节点为worker;
3、Spark on Yarn模式和Spark on Mesos模式;
二、spark的standalone模式安装和启动
1、把 spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz 包解压到 目录下
tar spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6
2、/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/conf/slaves 文件,里面是域名列表,表示从节点,这里只填1个
hadoop-senior.ibeifeng.com
3、log4j.properties.template 复制一份,并重命名为 log4j.properties;表示启用日志;
4、spark-env.sh.template 复制一份;并重命名为 spark-env.sh;增加以下内容:
JAVA_HOME=/opt/modules/jdk1.7.0_79
SCALA_HOME=/opt/modules/scala-2.10.4HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoopSPARK_MASTER_IP=hadoop-senior.ibeifeng.com
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=2g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
SPARK_WORKER_DIR=1
5、spark-defaults.conf.template 复制一份;并重命名为 spark-defaults.conf;在最后一行加上内容:
spark.master spark://hadoop-senior.ibeifeng.com:7077
至此,standalone的配置完成;
6、启动hadoop单节点和退出安全模式;在/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6目录下依次运行命令:
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
bin/hdfs dfsadmin -safemode leave
7、启动spark的master和worker节点
有2种启动方式;
一键启动:
sbin/start-all.sh
或者逐个启动,先启动master再启动worker
sbin/start-master.sh
sbin/start-slaves.sh
8、验证有没有启动
可以通过jps命令查看有无进程,有master和worker说明启动成功
或者通过webui监控界面来看
通过浏览器访问 http://hadoop-senior.ibeifeng.com:8080/
三、spark-shell 的用法
1、启动spark-shell
在/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6目录运行命令
bin/spark-shell
会看到有scala的命令行输入框,说明已经启动成功;
scala>
在spark监控界面 http://hadoop-senior.ibeifeng.com:8080/ 可以看到已经有应用在运行:
在spark-shell 的监控界面 http://hadoop-senior.ibeifeng.com:4040/jobs/ 可以看到已经运行spark-shell
2、SparkContext 读取hdfs上的文件
hdfs上有文件 /user/root/mapreduce/wordcount/input/wc.input
文件内容如下:
在spark-shell中运行命令,SparkContext 读取hdfs上的文件;hdfs路径得是全路径;读取完文件后生成RDD,类型为String;再用collect提交,
scala> sc.textFile("hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input")
res0: org.apache.spark.rdd.RDD[String] = hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input MapPartitionsRDD[1] at textFile at <console>:22
scala> res0.collect
res1: Array[String] = Array(hadoop hive, hive hadoop, hbase sqoop, hbase sqoop, hadoop hive)
可以再spark-shell监控界面看到任务
3、退出spark-shell的步骤
先停止 SparkContext,再退出 spark-shell
scala> sc.stop
scala> exit
四、master和worker的监控界面webui
在spark-env.sh中设置了master的端口,webui端口,设置了worker的端口,webui的端口;内容如下:
SPARK_MASTER_IP=hadoop-senior.ibeifeng.com
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=2g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
SPARK_WORKER_DIR=1
访问 http://hadoop-senior.ibeifeng.com:8080/ 可以看到master节点的状况;
如下图可看到,master端口为7077,有1个worker从节点,端口为7078;正在运行的有一个应用,应用名为“Spark shell”
访问 http://hadoop-senior.ibeifeng.com:8080/ 可以看到worker节点的状况;
如下图所示,worker端口为7078;executor序号为0,正在运行的有一个应用,应用名为“Spark shell”
访问http://hadoop-senior.ibeifeng.com:4040/executors/,spark-shell监控界面;
可以看到2个executor,序号为0的是worker的executor;driver的是 driver program(SparkContext)的executor;
【Spark】Spark安装和Spark-shell使用相关推荐
- Spark快速入门指南 – Spark安装与基础使用
本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...
- 3.如何安装Apache Spark
如何安装Apache Spark 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹 ...
- [Kafka与Spark集成系列二] Spark的安装及简单应用
欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...
- Hadoop3 Hive Spark完整安装与实践
大数据实践 Hadoop3 Hive Spark完全安装 在下载目录下打开终端,移动下载好的文件到/usr/local sudo mv 文件名 /usr/local 在/usr/local中解压文件 ...
- 3.Spark的安装(华为云学习笔记,Spark编程基础,大数据)
Spark的安装 ① 在Linux系统中安装Spark: ② 运行Spark自带实例. 实验原理 -> Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.Sp ...
- Spark的安装(Standalone模式,高可用模式,基于Yarn模式)
目录 spark的Standalone模式安装 一.安装流程 1.将spark-2.2.0-bin-hadoop2.7.tgz 上传到 /usr/local/spark/ 下,然后解压 2.进入到c ...
- PySpark大数据分析(1):Spark的安装与文件读取
为什么使用PySpark Spark是大数据分析引擎,擅长批处理,支持部分机器学习算法的并行化.Spark支持Java,Scala,Python,以及R语言,其中使用Python进行编程的PySpar ...
- Kafka与Spark集成系列二Spark的安装及简单应用
原 [Kafka与Spark集成系列二] Spark的安装及简单应用https://blog.csdn.net/u013256816/article/details/82082019版权声明:本文为博 ...
- 大数据之spark学习记录二: Spark的安装与上手
大数据之spark学习记录二: Spark的安装与上手 文章目录 大数据之spark学习记录二: Spark的安装与上手 Spark安装 本地模式 Standalone 模式 基本配置 步骤1: 复制 ...
- Spark的安装和使用
Spark2.1.0入门:Spark的安装和使用 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04) 手把手教你在VirtualBox ...
最新文章
- Open***异地机房互连以及负载均衡高可用解决方案
- Oracle ASM 翻译系列第七弹:高级知识 How many partners?
- python-Django收集主机信息
- 数据库系统概念总结:第七章 数据库设计和E-R模型
- 如何写一个好的方法-读Clean Code 有感
- kettle 数据提取效率提升
- Octopress使用中经验总结
- 《伟大的小细节:互联网产品设计中的微创新思维》——3.3 位置环境因素
- curl error code 60 51 代码解决方式
- springboot系列二、springboot项目搭建
- 使用django-admin 上传-下载 文件
- 中国姓氏数据库 java_中国姓的数据库(sql版),下你妹CSDN,又不是你的资源要你妹积分!...
- python和excel的优缺点_Excel不好吗?为什么非要学python?
- 深入理解linux网络pdf,深入理解Linux网络技术内幕 pdf epub mobi txt 下载
- python微博爬虫实战_爬虫实战——四大指数之微博指数(一)
- ToolBar修改返回按钮图标
- matlab中对于xf(x)的积分,[matlab 积分]MATLAB求积分?
- HDU-4539 郑厂长系列故事——排兵布阵 状态压缩DP Or 最大团
- 自成一派的风格楷体字体
- 线性加权平均 c语言程序,【求助】编的一个加权平均分计算程序,总是出错。求高手指点~...